云原生助力 Babylon 医学AI创新

挑战

Babylon 的多款产品都在使用机器学习和人工智能,在2019年,公司内部计算能力不足以进行一项试验。与此同时,公司正在经历快速成长(3年内规模从100人发展到1600人),也有计划将业务拓展到其他国家。

解决方案

Babylon 在2018年已将面向用户的应用程序迁移到了一个 Kubernetes 平台上,基础架构团队转向 Kubeflow,即 Kubernetes 上的一个机器学习工具。“我们想要创建一个 Kubernetes 核心服务器,因此我们部署了 Kuberflow,编排了整个试验,最终圆满成功,” AI 基础架构主管 Jérémie Vallée 说。该团队开始在 Kubernetes 上构建自助 AI 训练平台。

影响

各团队能够瞬间访问计算,不再需要等待数小时或数天之久了。临床验证曾经需要10个小时,而现在仅需20分钟就能搞定。云原生平台的可移植性也使 Babylon 进入其他国家市场成为可能。

公司

Babylon

地点

英国

云类型

公有 多云

产品类型

安装程序

出版

April 8, 2020

使用的CNCF项目

Argo
Helm
Kubernetes
Prometheus

临床验证

从10小时缩短到20分钟以内

AI 试验所需计算

1600 CPU、3.2 TB RAM

瞬间访问计算

不再是数小时或数天

Babylon 肩负着让地球每个人都享有平价医疗服务的使命。

自2013年在英国创立以来,这家初创企业已经促成了全球上百万次数字咨询。在英国,患者通常要等一到两周才能约到医生。借助 Babylon 的国家医疗服务体系(NHS)服务GP at Hand——其拥有的75,000多名注册患者中——39%可以在30分钟内完成电话预约,89%在6小时内完成预约。

但这仅仅是个开始。“我们尝试将各种技术与我们自己的医学专业知识结合起来,研发自己的产品帮助患者管理、了解自己的健康状况,同时帮助医生提高工作效率,”Babylon AI 基础架构主管 Jérémie Vallée 说。

多款产品都在使用机器学习和人工智能,2019年,研究人员遭遇痛点。“公司有几台服务器,研究人员用这些服务器做了大量 AI 试验和部分模型训练,但我们现在走到了一个节点:公司内部计算能力不足以进行一项试验,” Vallée 说。

Babylon 在2018年已将面向用户的应用程序迁移到了一个 Kubernetes 平台上,“因为这些迁移,我们掌握了很多 Kubernetes 知识,”他补充说道。为了优化我们创建的部分模型,团队转向 Kubeflow,即 Kubernetes 上的一个机器学习工具。“我们想要创建一个 Kubernetes 核心服务器,因此我们部署了 Kuberflow,编排了整个试验,最终圆满成功,”他说。

在试验基础上,Vallée 团队又接受新任务:建立自助平台,帮助 Babylon 的 AI 团队通过扩展提高效率,缩短产品上市的时间。主要需求包括:(1)无论试验规模大小,让研究人员和工程师有能力进行他们需要的计算;(2)按需、集中为团队提供他们工作所需的最佳工具;(3)因为公司正在扩大业务规模,进入不同国家市场,训练平台要靠近管理的数据。

从各方面考虑,Kubernetes 都是能够实现所有目标的方法。“Kubernetes 是一个强大的机器学习平台,解决你需要的所有时序安排和可扩展性问题,” Vallée 说。Babylon 要在其运营的各个国家保存数据,这就需要采用多地区、多云的策略,而有的国家可能还没有公有云供应商。“我们需要一个可移植平台,这样就能随时随地进行训练,”他说,“Kubernetes 提供了一个基础层,借此我们不需要云供应商就能部署平台,还有所需的所有工具。对我们来说,这是个非常好的卖点。”

团队决定在 Kubernetes 上创建 Babylon AI 研究平台后,马上参照云原生景观建立堆栈:Prometheus 和 Grafana 用于监控;Istio 服务网格用于控制训练平台上的网络及工作流访问;Helm 用于部署堆栈;Flux 用于管理管道中的 GitOps 部分。

“Kubernetes 是一个强大的机器学习平台,解决你需要的所有时序安排和可扩展性问题。”

— BABYLON AI 基础架构主管 JÉRÉMIE VALLÉE

云原生 AI 平台对 Babylon 产生了巨大影响。第一批在平台上实施的研究项目主要涉及机器学习和自然语言处理。试验需要进行大量计算,1600 CPU,3.2 TB RAM,远远超过了 Babylon 的内部计算能力。此外,访问计算以前需要花费数个小时,有时甚至需要数天之久,需要多长时间往往取决于平台团队的忙碌程度。“现在有了 Kubernetes 和我们提供的自助平台,瞬间即可访问,” Vallée 说。

在平台上完成的另一项重要工作就是新应用的临床验证,比如 Babylon 的症状检查仪,这种仪器依据用户输入的证据计算某种疾病的患病概率。“在医疗行业,我们希望在生产前保证所有模型的安全性,” Vallée 说。将 Argo 用于 GitOps“让我们能够大规模扩展该进程。”

以前,研究人员要等10个小时才能拿到新版本模型的结果。现在有了 Kubernetes,不到20分钟就能搞定。此外,以前一次只能做一个临床验证,现在只要有需要,多个验证可以同时进行,在过去3年中,Babylon 因此大大获益,公司规模从原来的100名员工迅速增长到了1600人。

“交付自助平台,用户能在上面运行工作负载,我们的数据科学家社区不需要掌握云技术,不需要平台工程师的帮助,就可以调优超参数,开发通用算法,因此能够加速创新。”

— BABYLON 首席技术官 CAROLINE HARGROVE

“交付自助平台,用户能在上面运行工作负载,我们的数据科学家社区不需要掌握云技术,不需要平台工程师的帮助,就可以调优超参数,开发通用算法,因此能够加速创新,”首席技术官 Caroline Hargrove 说。

平台运营总监 Jean Marie Ferdegue 补充说,“为我们的数据科学家提供基于 Kubernetes 的平台就意味着提高了安全性,通过赋能促进了创新;云工程师每天得以积累数百人的使用体验,不再需要支持具体的定制使用案例,从而为我们带来了更加经济实惠的医疗卫生服务。”

此外,随着 Babylon 规模的持续扩大,“进入新的市场非常容易,” Vallée 说,“15个月之前部署这个平台的时候,我们只在英国有一个比较大的环境,现在我们在加拿大和亚洲各有一个,美国的也即将建成。这是我们借助 Kubernetes 和其他云原生项目实现的目标之一。”

Babylon 的云原生路线图是要把公司所有的 AI 工作都放到平台上,也会逐渐加入 AI 护理服务。“我觉得这会是结合 AI 和医疗的一个很有意思的领域,” Vallée 说,“这个问题有点复杂,会有很多相关的问题产生。所以借助我们的平台,我们想提的问题是,‘怎样才能减轻开发者和机器学习工程师的痛苦?’”