KubeCon + CloudNativeCon North America Virtual | November 17-20, 2020 | Don’t Miss Out | Learn more

云原生助力 Babylon 医学AI创新

挑战

Babylon 的多款产品都在使用机器学习和人工智能,在2019年,公司内部计算能力不足以进行一项试验。与此同时,公司正在经历快速成长(3年内规模从100人发展到1600人),也有计划将业务拓展到其他国家。

解决方案

Babylon 在2018年已将面向用户的应用程序迁移到了一个 Kubernetes 平台上,基础架构团队转向 Kubeflow,即 Kubernetes 上的一个机器学习工具。“我们想要创建一个 Kubernetes 核心服务器,因此我们部署了 Kuberflow,编排了整个试验,最终圆满成功,” AI 基础架构主管 Jérémie Vallée 说。该团队开始在 Kubernetes 上构建自助 AI 训练平台。

影响

各团队能够瞬间访问计算,不再需要等待数小时或数天之久了。临床验证曾经需要10个小时,而现在仅需20分钟就能搞定。云原生平台的可移植性也使 Babylon 进入其他国家市场成为可能。

使用的CNCF项目

Argo
Helm
Kubernetes
Prometheus

临床验证

从10小时缩短到20分钟以内

AI 试验所需计算

1600 CPU、3.2 TB RAM

瞬间访问计算

不再是数小时或数天

Babylon 肩负着让地球每个人都享有平价医疗服务的使命。

自2013年在英国创立以来,这家初创企业已经促成了全球上百万次数字咨询。在英国,患者通常要等一到两周才能约到医生。借助 Babylon 的国家医疗服务体系(NHS)服务GP at Hand——其拥有的75,000多名注册患者中——39%可以在30分钟内完成电话预约,89%在6小时内完成预约。

但这仅仅是个开始。“我们尝试将各种技术与我们自己的医学专业知识结合起来,研发自己的产品帮助患者管理、了解自己的健康状况,同时帮助医生提高工作效率,”Babylon AI 基础架构主管 Jérémie Vallée 说。

多款产品都在使用机器学习和人工智能,2019年,研究人员遭遇痛点。“公司有几台服务器,研究人员用这些服务器做了大量 AI 试验和部分模型训练,但我们现在走到了一个节点:公司内部计算能力不足以进行一项试验,” Vallée 说。

Babylon 在2018年已将面向用户的应用程序迁移到了一个 Kubernetes 平台上,“因为这些迁移,我们掌握了很多 Kubernetes 知识,”他补充说道。为了优化我们创建的部分模型,团队转向 Kubeflow,即 Kubernetes 上的一个机器学习工具。“我们想要创建一个 Kubernetes 核心服务器,因此我们部署了 Kuberflow,编排了整个试验,最终圆满成功,”他说。

在试验基础上,Vallée 团队又接受新任务:建立自助平台,帮助 Babylon 的 AI 团队通过扩展提高效率,缩短产品上市的时间。主要需求包括:(1)无论试验规模大小,让研究人员和工程师有能力进行他们需要的计算;(2)按需、集中为团队提供他们工作所需的最佳工具;(3)因为公司正在扩大业务规模,进入不同国家市场,训练平台要靠近管理的数据。

从各方面考虑,Kubernetes 都是能够实现所有目标的方法。“Kubernetes 是一个强大的机器学习平台,解决你需要的所有时序安排和可扩展性问题,” Vallée 说。Babylon 要在其运营的各个国家保存数据,这就需要采用多地区、多云的策略,而有的国家可能还没有公有云供应商。“我们需要一个可移植平台,这样就能随时随地进行训练,”他说,“Kubernetes 提供了一个基础层,借此我们不需要云供应商就能部署平台,还有所需的所有工具。对我们来说,这是个非常好的卖点。”

团队决定在 Kubernetes 上创建 Babylon AI 研究平台后,马上参照云原生景观建立堆栈:Prometheus 和 Grafana 用于监控;Istio 服务网格用于控制训练平台上的网络及工作流访问;Helm 用于部署堆栈;Flux 用于管理管道中的 GitOps 部分。

“Kubernetes 是一个强大的机器学习平台,解决你需要的所有时序安排和可扩展性问题。”

— BABYLON AI 基础架构主管 JÉRÉMIE VALLÉE

云原生 AI 平台对 Babylon 产生了巨大影响。第一批在平台上实施的研究项目主要涉及机器学习和自然语言处理。试验需要进行大量计算,1600 CPU,3.2 TB RAM,远远超过了 Babylon 的内部计算能力。此外,访问计算以前需要花费数个小时,有时甚至需要数天之久,需要多长时间往往取决于平台团队的忙碌程度。“现在有了 Kubernetes 和我们提供的自助平台,瞬间即可访问,” Vallée 说。

在平台上完成的另一项重要工作就是新应用的临床验证,比如 Babylon 的症状检查仪,这种仪器依据用户输入的证据计算某种疾病的患病概率。“在医疗行业,我们希望在生产前保证所有模型的安全性,” Vallée 说。将 Argo 用于 GitOps“让我们能够大规模扩展该进程。”

以前,研究人员要等10个小时才能拿到新版本模型的结果。现在有了 Kubernetes,不到20分钟就能搞定。此外,以前一次只能做一个临床验证,现在只要有需要,多个验证可以同时进行,在过去3年中,Babylon 因此大大获益,公司规模从原来的100名员工迅速增长到了1600人。

“交付自助平台,用户能在上面运行工作负载,我们的数据科学家社区不需要掌握云技术,不需要平台工程师的帮助,就可以调优超参数,开发通用算法,因此能够加速创新。”

— BABYLON 首席技术官 CAROLINE HARGROVE

“交付自助平台,用户能在上面运行工作负载,我们的数据科学家社区不需要掌握云技术,不需要平台工程师的帮助,就可以调优超参数,开发通用算法,因此能够加速创新,”首席技术官 Caroline Hargrove 说。

平台运营总监 Jean Marie Ferdegue 补充说,“为我们的数据科学家提供基于 Kubernetes 的平台就意味着提高了安全性,通过赋能促进了创新;云工程师每天得以积累数百人的使用体验,不再需要支持具体的定制使用案例,从而为我们带来了更加经济实惠的医疗卫生服务。”

此外,随着 Babylon 规模的持续扩大,“进入新的市场非常容易,” Vallée 说,“15个月之前部署这个平台的时候,我们只在英国有一个比较大的环境,现在我们在加拿大和亚洲各有一个,美国的也即将建成。这是我们借助 Kubernetes 和其他云原生项目实现的目标之一。”

Babylon 的云原生路线图是要把公司所有的 AI 工作都放到平台上,也会逐渐加入 AI 护理服务。“我觉得这会是结合 AI 和医疗的一个很有意思的领域,” Vallée 说,“这个问题有点复杂,会有很多相关的问题产生。所以借助我们的平台,我们想提的问题是,‘怎样才能减轻开发者和机器学习工程师的痛苦?’”