战疫期，钉钉如何扛起暴增百倍的流量？

最新推荐文章于 2021-02-01 15:15:54 发布

原创最新推荐文章于 2021-02-01 15:15:54 发布 · 1.6w 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#钉钉 #扩容 #云计算 #阿里云

迎战新型肺炎，互联网全面出击专栏收录该内容

31 篇文章

订阅专栏

疫情期间，钉钉用户量激增，面临资源扩容挑战。借助阿里云资源编排服务ROS，钉钉实现了快速自动部署，2小时内新增1万台云服务器，满足在线办公和教育需求。

疫情期间，在线教育、在线办公需求持续井喷，钉钉作为很多企业首选的在线办公软件，用户量激增，特别是钉钉视频会议、直播的需求随之飙升。同时，钉钉为了响应教育部门“停课不停学”的号召，宣布老师们可以免费试用钉钉在线课堂。

流量如洪流般涌入钉钉，一场资源扩容的技术挑战拉开了帷幕。中小学生集体对钉钉展开了五星分期与在线写歌“泄愤”的策略，钉钉本钉不得不在线求饶。而在大战间隙，一声感叹传出：

流量这么大，钉钉为什么不崩？

从 1 月 28 日开始，钉钉音视频会议、直播的访问流量倍数级增长。作为一个在云上成长起来的产品，钉钉开启了在阿里云的资源扩容之路，满足了用户在家办公及在家上课的需求，保证了用户良好的体验，钉钉如何做到的？

如此大型的扩容，面临着两大困境：效率与资源供应

人工扩容困境：效率低下

时间太短。 面对流量暴增，留给钉钉技术团队时间只有几天。从 1 月 29 日起，钉钉团队就已在阿里云上 24 小时开始全力扩容，截止 2 月 2 日，从最初的 2W vCPU 扩容到 3W vCPU，仅做到了数倍扩容，还远未达到业务需求。
购买与配置非常复杂。 钉钉的系统架构包含多种资源，不同于单一的云服务器 ECS 服务集群，还包含 SLB、MongoDB、Redis、EIP 等产品。这些资源都需要一个个购买，其之间的关系也需要技人工自行配置。
人工部署效率低、失误率高。 钉钉用户群量级大。如果人工部署集群，一个人部署 1 个集群需要 1 小时左右，同时也只能操作 3-4 个集群，还需要大量的配置操作，很容易失误。
部署复杂度高。 集群的服务能力自闭环，支持无限扩展，但也会相应提升部署复杂度，而这次扩容涉及 8 个地域、16 个可用区，传统部署方式扩容场景效率低下
大规模集群管理难度大。需要快速扩容近千集群，才能满足几亿人在家办公及学生在家上课的需求。当资源上千后，就很难管理资源之间的关系了，更何况超百万的资源规模。
人工部署，容错率比较差，排查困难。 集群之间经常出现偏差，某个集群的 SLB 监听端口是 300，另一个集群是 3000，出现问题很难排查。

除却以上困难，建立和运维如此巨大的集群规模还会带来更多的技术挑战。

利用资源编排服务 ROS，实现快速自动部署

早在 2 月 2 日流量洪峰带来之前，钉钉就通过阿里云的资源编排服务（Resource Orchestration Service，简称 ROS）提高集群部署效率、帮助其快速扩容。而这款服务不负重托，帮助钉钉在短短 2 小时内新增部署了超过 1 万台云服务器，这个数字也创下了阿里云上快速扩容的新纪录。

什么选择资源编排服务？

资源编排服务是一款帮助阿里云用户简化云资源创建、更新和删除的自动化服务。其通过资源栈 (Stack) 这种逻辑集合来统一管理一组云资源（一个资源栈即为一组阿里云资源）。利用资源编排服务，云资源的创建、删除、克隆等操作都可以以资源栈为单位来完成。在 DevOps 实践中，资源编排可以轻松地克隆开发、测试、线上环境；同时，也可以更容易实现应用的整体迁移和扩容。

基础设施即代码（Infrastructure as Code）

资源编排服务是阿里云提供的基础设施即代码（Infrastructureas Code，简称 IaC）的云产品，使用 ROS 可以帮助最快速地实践 DevOps 中关于 IaC 的理念。

全自动托管服务

ROS 产品为全托管服务，无需购买维护 IaC 模板本身执行所使用的资源，只需要关注业务所需要使用的资源，即模板中定义的资源。尤其需要创建多个项目（对应多个资源栈）时，全托管的自动化可以更快地完成任务。

可重复部署

无论客户是需要部署的环境是开发，测试和生产环境，都可以使用同一套模板进行创建。指定不同的参数可以满足环境的差异化，例如，测试环境的 ECS 实例数是 2 台，而生产环境的 ECS 实例数是 20 台。或是客户需要进行多地域的部署，使用同一套模板可以进行重复的部署，从而提高部署多地域的效率。

标准化部署

在实践中，不同环境的细微差异往往带来非常复杂的管理成本，延长了问题诊断的时间，从而影响了业务的正常运转。通过使用 ROS 重复部署，可以将部署环境标准化，减少不同环境的差异，将环境的配置沉淀到模板中。再通过类似代码的严格管理流程，从而保证部署的标准性。

统一的身份认证、安全和审计

和其它的同类产品对比，阿里云官方出品的 ROS 与其它阿里云产品有着最佳的集成。集成资源访问管理（RAM）提供了统一的身份认证，而无需为单独建立用户认证体系。所有的云产品操作都通过 OpenAPI 调用，意味着您可以使用操作审计服务（ActionTrail）来审查所有的运维操作，包括 ROS 本身。