蚂蚁金服使用 Kubernetes 推进超速增长战略

挑战

蚂蚁金服于 2014 年 10 月正式成立,起步于 2004 年成立的全球最大在线支付平台支付宝。除金融服务外,该公司还利用科技创新提供了众多其他服务。支付宝拥有 9 亿多用户,每天都有海量的交易通过其本地和全球合作伙伴达成。2017 年双十一高峰期的每秒交易量高达 256,000 笔,2018 年双十一的商品成交额更是高达 310 亿美元。除了支撑这些交易外,支付宝同时还提供有许多其他的服务。存储和计算集团产品管理负责人 Haojie Hang 对此表示,蚂蚁金服面临着“以全新方式处理数据的挑战。我们认为这一处理规模会带来三个严峻挑战:1. 如何提供实时计算、存储和处理能力,以便开展为欺诈检测提供实时建议等工作;2. 如何从这些数据中挖掘智能,尽管当前我们有很多数据,但我们并未能从中获得足够的洞察;3. 如何在应用程序级别、中间件级别、系统级别甚至是芯片级别保证安全性。”为了向客户提供可靠和一致的服务,蚂蚁金服于 2014 年初开始采用容器,并且很快开始需要一款编排解决方案,来支持其数据中心内拥有数万个节点的集群。

解决方案

在评估了多项技术后,团队最终选择使用 Kubernetes 提供编排服务,同时还决定采用其他多个 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。Hang 指出:“2016 年底,我们认为 Kubernetes 将成为事实上的标准回顾过去,我们做出了正确的选择,选择了正确的技术。但之后,我们需要将生产工作负载从传统基础设施转移到支持 Kubernetes 的最新平台,由于我们非常注重可靠性和一致性,这一工作着实花费了一些时间。“所有核心财务系统都在 2017 年 11 月完成了容器化处理,向 Kubernetes 的迁移工作正在进行之中。

影响

Hang 表示:“通过使用云原生技术,我们发现运营效率至少改进了十倍,这意味着我们的产能也能够实现相同倍数的提升。”蚂蚁金服还向全球的业务合作伙伴提供了完。全集成的金融云平台,并希望凭借自身在服务创新方面的丰富经验和雄厚技术专业知识,为打造下一代数字化银行赋能。Hang 表示,其团队还没有开始着手优化 Kubernetes 平台:“因为我们还处于超速增长阶段,还没有进入成本节约阶段。”

挑战: 安全 , 扩展 , 效率

行业: 金融服务

地点: 中国

云类型: 私有

产品类型: 安装程序

出版: July 31, 2019

使用的项目
CoreDNS
etcd
Kubernetes
OpenTracing
Prometheus
Stay informed

Get the latest news from our community of doers. Subscribe to the CNCF newsletter.

See footer for our privacy policy.

一些数据…

支付宝峰值量

2017 年每秒 256,000 笔交易

运营效率

提高至少
10 倍

规模

数十个集群,其中一个最大的集群有数万个节点

作为跨国集团阿里巴巴成立的分支公司,蚂蚁金服增长迅速,估值超过 1500 亿美元。

作为跨国集团阿里巴巴成立的分支公司,蚂蚁金服增长迅速,估值超过 1500 亿美元。这家金融科技创业公司于 2014 年成立,旗下包含全球最大的在线支付平台支付宝,同时还通过充分利用科技创新推出了多项其他服务。支付宝拥有 9 亿多用户,每天都有海量的交易通过其本地和全球合作伙伴达成。2017 年双十一高峰期的每秒交易量高达 256,000 笔,2018 年双十一的商品成交额更是高达 310 亿美元。蚂蚁金服以“为世界带来更多平等的机会”为使命,致力于通过科技创新能力,搭建一个开放、共享的信用体系和金融服务平台。

除了金融服务外,蚂蚁金服还运营着其他业务,例如花呗在线信用系统、借呗借款服务、以及拥有 3.5 亿用户的蚂蚁森林绿色能量移动应用。存储和计算集团产品管理负责人 Haojie Hang 对此表示,蚂蚁金服面临着“以全新方式处理数据的挑战。我们认为这一处理规模会带来三个严峻挑战:1. 如何提供实时计算、存储和处理能力,以便开展为欺诈检测提供实时建议等工作;2. 如何从这些数据中挖掘智能,尽管当前我们有很多数据,但我们并未能从中获得足够的洞察;3. 如何在应用程序级别、中间件级别、系统级别甚至是芯片级别保证安全性。”

为了应对这些挑战并为其客户提供可靠和一致的服务,蚂蚁金服在 2014 年采用了 Docker 容器化技术。但很快,他们便意识到需要一款编排解决方案,来支持公司数据中心内拥有数万个节点的集群。

该团队研究了多项技术,包括 Docker Swarm 和 Mesos 等。Hang 指出:“我们开展了大量的概念验证 (POC) 工作,在选择生产系统方面我们非常谨慎,我们希望确保不会丢失任何数据。一分钟的服务中断对于我们来说是无法接受的,即使是一秒钟的中断也会导致非常严重的影响。我们每一天都面临着沉重的压力,需要为中国和全球的消费者与企业提供可靠、一致的服务。”

最终,蚂蚁金服选择了 Kubernetes。在 Hang 看来,Kubernets 很好地满足了他们的全部需求。它拥有一个强大的社区,“技术在未来三到五年内仍然能够满足需求”,同时公司的工程师团队也熟悉该项技术。Hang 指出:“2016 年底,我们认为 Kubernetes 将成为事实上的标准回顾过去,我们做出了正确的选择,选择了正确的技术。但是这之后我们需要将生产工作负载从传统基础设施转移到支持 Kubernetes 的最新平台。我们花了很多时间学习,然后培训我们的员工,以便在 Kubernetes 上很好地构建应用程序。”

所有核心财务系统都在 2017 年 11 月完成了容器化处理,向 Kubernetes 的迁移工作正在进行之中。蚂蚁金服的平台还利用了多个其他 CNCF 项目,包括 PrometheusOpenTracingetcdCoreDNS。 全球技术合作与发展负责负责人 Ranger Yu 表示“在今年的双十一中,我们有大量的节点在 Kubernetes 上运行,但与我们基础设施的整体规模相比,需要做的工作还有很多。”

“2016 年底,我们认为 Kubernetes 将成为事实上的标准。回顾过去,我们做出了正确的选择,选择了正确的技术。”

— HAOJIE HANG,蚂蚁金服产品管理负责人

当前的部署已经为蚂蚁金服带来了显著的改进。Hang 表示:“云原生技术使我们在效率方面获益匪浅。总的来说,我们希望确保基础设施灵活敏捷,能够轻松应对未来可能出现的状况。这是我们最重要的目标。通过使用云原生技术,我们发现运营效率至少改进了十倍,这意味着我们的产能也能够实现相同倍数的提升。举例来说,假设您现在每个人可以管理 10 个节点。借助云原生技术,未来每个人将可以管理 100 个节点。”

蚂蚁金服还向全球的合作伙伴提供了金融云平台,并希望凭借自身在服务创新方面的丰富经验和雄厚技术专业知识,为打造下一代数字化银行赋能。Hang 表示,其团队还没有开始着手优化 Kubernetes 平台:“因为我们还处于超高速增长阶段,还没有进入成本节约阶段。”

在蚂蚁金服采用云原生技术的过程中,CNCF 社区也有着重要影响。Hang 指出:“如果您正在应用一项新技术,能够在社区中与其他用户讨论技术问题将会大有裨益。CNCF 和这一令人惊叹的技术让我们获益匪浅,让我们能够在全球持续扩展业务。毋庸置疑,我们肯定会在未来继续加强与社区的合作,拥抱开源技术。”

“在今年的双十一中,我们有大量的节点在 Kubernetes 上运行,但与我们基础设施的整体规模相比,需要做的工作还有很多。”

— RANGER YU,蚂蚁金服全球技术合作与发展负责人

我们在未来将会更加积极主动。CNCF 提供了一个绝佳的平台,让每个人都可以发布或使用组件。这是一种非常好的开源治理模式。”

展望未来,蚂蚁金服团队将继续评估其他 CNCF 项目。该团队在中国建立了一个服务网格社区,汇集了许多中国公司和开发人员,共同探讨该技术的潜力。Hang 表示:“对于中国的开发人员和最终用户而言,服务网格非常具有吸引力。由于我们现在有很多传统系,它是将新系统和传统系统整合在一起的理想中间层。对于新技术,我们会紧密关注它们是否能够持续很长时间。”

Kubernetes 以出色的成绩,通过了蚂蚁金服的测试。团队建议其他公司也可以加以考虑。Hang 指出:“在中国,我们是金融和其他相关服务创新领域的领导者。我们也希望通过在技术领域的投资,确保自己在未来 5 到 10 年能够继续保持这一领导地位。”

Join the CNCF end user community and accelerate your cloud native technology adoption in close collaboration with peers, project maintainers and CNCF.