蚂蚁金服使用 Kubernetes 推进超速增长战略

挑战

蚂蚁金服于 2014 年 10 月正式成立,起步于 2004 年成立的全球最大在线支付平台支付宝。除金融服务外,该公司还利用科技创新提供了众多其他服务。支付宝拥有 9 亿多用户,每天都有海量的交易通过其本地和全球合作伙伴达成。2017 年双十一高峰期的每秒交易量高达 256,000 笔,2018 年双十一的商品成交额更是高达 310 亿美元。除了支撑这些交易外,支付宝同时还提供有许多其他的服务。存储和计算集团产品管理负责人 Haojie Hang 对此表示,蚂蚁金服面临着“以全新方式处理数据的挑战。我们认为这一处理规模会带来三个严峻挑战:1. 如何提供实时计算、存储和处理能力,以便开展为欺诈检测提供实时建议等工作;2. 如何从这些数据中挖掘智能,尽管当前我们有很多数据,但我们并未能从中获得足够的洞察;3. 如何在应用程序级别、中间件级别、系统级别甚至是芯片级别保证安全性。”为了向客户提供可靠和一致的服务,蚂蚁金服于 2014 年初开始采用容器,并且很快开始需要一款编排解决方案,来支持其数据中心内拥有数万个节点的集群。

解决方案

在评估了多项技术后,团队最终选择使用 Kubernetes 提供编排服务,同时还决定采用其他多个 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。Hang 指出:“2016 年底,我们认为 Kubernetes 将成为事实上的标准回顾过去,我们做出了正确的选择,选择了正确的技术。但之后,我们需要将生产工作负载从传统基础设施转移到支持 Kubernetes 的最新平台,由于我们非常注重可靠性和一致性,这一工作着实花费了一些时间。“所有核心财务系统都在 2017 年 11 月完成了容器化处理,向 Kubernetes 的迁移工作正在进行之中。

影响

Hang 表示:“通过使用云原生技术,我们发现运营效率至少改进了十倍,这意味着我们的产能也能够实现相同倍数的提升。”蚂蚁金服还向全球的业务合作伙伴提供了完。全集成的金融云平台,并希望凭借自身在服务创新方面的丰富经验和雄厚技术专业知识,为打造下一代数字化银行赋能。Hang 表示,其团队还没有开始着手优化 Kubernetes 平台:“因为我们还处于超速增长阶段,还没有进入成本节约阶段。”

公司

蚂蚁金服

行业

金融服务

地点

中国

云类型

私有

产品类型

安装程序

出版

July 31, 2019

使用的CNCF项目

CoreDNS
etcd
Kubernetes
OpenTracing
Prometheus

支付宝峰值量

2017 年每秒 256,000 笔交易

运营效率

提高至少
10 倍

规模

数十个集群,其中一个最大的集群有数万个节点

作为跨国集团阿里巴巴成立的分支公司,蚂蚁金服增长迅速,估值超过 1500 亿美元。

作为跨国集团阿里巴巴成立的分支公司,蚂蚁金服增长迅速,估值超过 1500 亿美元。这家金融科技创业公司于 2014 年成立,旗下包含全球最大的在线支付平台支付宝,同时还通过充分利用科技创新推出了多项其他服务。支付宝拥有 9 亿多用户,每天都有海量的交易通过其本地和全球合作伙伴达成。2017 年双十一高峰期的每秒交易量高达 256,000 笔,2018 年双十一的商品成交额更是高达 310 亿美元。蚂蚁金服以“为世界带来更多平等的机会”为使命,致力于通过科技创新能力,搭建一个开放、共享的信用体系和金融服务平台。

除了金融服务外,蚂蚁金服还运营着其他业务,例如花呗在线信用系统、借呗借款服务、以及拥有 3.5 亿用户的蚂蚁森林绿色能量移动应用。存储和计算集团产品管理负责人 Haojie Hang 对此表示,蚂蚁金服面临着“以全新方式处理数据的挑战。我们认为这一处理规模会带来三个严峻挑战:1. 如何提供实时计算、存储和处理能力,以便开展为欺诈检测提供实时建议等工作;2. 如何从这些数据中挖掘智能,尽管当前我们有很多数据,但我们并未能从中获得足够的洞察;3. 如何在应用程序级别、中间件级别、系统级别甚至是芯片级别保证安全性。”

为了应对这些挑战并为其客户提供可靠和一致的服务,蚂蚁金服在 2014 年采用了 Docker 容器化技术。但很快,他们便意识到需要一款编排解决方案,来支持公司数据中心内拥有数万个节点的集群。

该团队研究了多项技术,包括 Docker Swarm 和 Mesos 等。Hang 指出:“我们开展了大量的概念验证 (POC) 工作,在选择生产系统方面我们非常谨慎,我们希望确保不会丢失任何数据。一分钟的服务中断对于我们来说是无法接受的,即使是一秒钟的中断也会导致非常严重的影响。我们每一天都面临着沉重的压力,需要为中国和全球的消费者与企业提供可靠、一致的服务。”

最终,蚂蚁金服选择了 Kubernetes。在 Hang 看来,Kubernets 很好地满足了他们的全部需求。它拥有一个强大的社区,“技术在未来三到五年内仍然能够满足需求”,同时公司的工程师团队也熟悉该项技术。Hang 指出:“2016 年底,我们认为 Kubernetes 将成为事实上的标准回顾过去,我们做出了正确的选择,选择了正确的技术。但是这之后我们需要将生产工作负载从传统基础设施转移到支持 Kubernetes 的最新平台。我们花了很多时间学习,然后培训我们的员工,以便在 Kubernetes 上很好地构建应用程序。”

所有核心财务系统都在 2017 年 11 月完成了容器化处理,向 Kubernetes 的迁移工作正在进行之中。蚂蚁金服的平台还利用了多个其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。 全球技术合作与发展负责负责人 Ranger Yu 表示“在今年的双十一中,我们有大量的节点在 Kubernetes 上运行,但与我们基础设施的整体规模相比,需要做的工作还有很多。”

“2016 年底,我们认为 Kubernetes 将成为事实上的标准。回顾过去,我们做出了正确的选择,选择了正确的技术。”

— HAOJIE HANG,蚂蚁金服产品管理负责人

当前的部署已经为蚂蚁金服带来了显著的改进。Hang 表示:“云原生技术使我们在效率方面获益匪浅。总的来说,我们希望确保基础设施灵活敏捷,能够轻松应对未来可能出现的状况。这是我们最重要的目标。通过使用云原生技术,我们发现运营效率至少改进了十倍,这意味着我们的产能也能够实现相同倍数的提升。举例来说,假设您现在每个人可以管理 10 个节点。借助云原生技术,未来每个人将可以管理 100 个节点。”

蚂蚁金服还向全球的合作伙伴提供了金融云平台,并希望凭借自身在服务创新方面的丰富经验和雄厚技术专业知识,为打造下一代数字化银行赋能。Hang 表示,其团队还没有开始着手优化 Kubernetes 平台:“因为我们还处于超高速增长阶段,还没有进入成本节约阶段。”

在蚂蚁金服采用云原生技术的过程中,CNCF 社区也有着重要影响。Hang 指出:“如果您正在应用一项新技术,能够在社区中与其他用户讨论技术问题将会大有裨益。CNCF 和这一令人惊叹的技术让我们获益匪浅,让我们能够在全球持续扩展业务。毋庸置疑,我们肯定会在未来继续加强与社区的合作,拥抱开源技术。”

“在今年的双十一中,我们有大量的节点在 Kubernetes 上运行,但与我们基础设施的整体规模相比,需要做的工作还有很多。”

— RANGER YU,蚂蚁金服全球技术合作与发展负责人

我们在未来将会更加积极主动。CNCF 提供了一个绝佳的平台,让每个人都可以发布或使用组件。这是一种非常好的开源治理模式。”

展望未来,蚂蚁金服团队将继续评估其他 CNCF 项目。该团队在中国建立了一个服务网格社区,汇集了许多中国公司和开发人员,共同探讨该技术的潜力。Hang 表示:“对于中国的开发人员和最终用户而言,服务网格非常具有吸引力。由于我们现在有很多传统系,它是将新系统和传统系统整合在一起的理想中间层。对于新技术,我们会紧密关注它们是否能够持续很长时间。”

Kubernetes 以出色的成绩,通过了蚂蚁金服的测试。团队建议其他公司也可以加以考虑。Hang 指出:“在中国,我们是金融和其他相关服务创新领域的领导者。我们也希望通过在技术领域的投资,确保自己在未来 5 到 10 年能够继续保持这一领导地位。”