1. 字节跳动云原生之路 1.1 技术体系概述
从技术体系底层逻辑来看,字节跳动采用层次清晰的技术体系,一些常见的前端业务,比如今日头条、抖音、西瓜视频等,都是建立在一系列共享的技术中台和基础设施服务之上,基础设施要不断演进平台服务能力,以适应业务的快速发展。
例如字节跳动目前有十多万个在线服务,在线集群有超过一千万个Pod,这些服务每天有超过两万个变更,平均每五天字节跳动的业务系统就会更新一次;为了处理数据报表、机器学习训练,每天有超过1.5亿个离线任务,处理几十EB的存储资源。
字节跳动的基础设施面临的业务场景规模巨大,且持续快速变化。
1.2 字节跳动云原生发展历程
在快速的变化和规模挑战之下,云原生技术,特别是云原生相关的资源调度技术在字节跳动是如何发展的?
当前的重点基础设施建设领域是基于联邦的多集群资源统一管理与调度。
1.3 字节跳动云原生发展的动机
从研发和资源效率角度:
从研发和资源效率角度:
我们将类似于云原生的技术体系分为三代:云、和......
这三代技术总体上沿着产品前向集成和资源规模化两条路径推进,这两种思路从两个不同的角度推动技术体系的演进。
从技术体系迭代来看,字节跳动技术体系未来的迭代方向可以概括为以下几个主题:
我们希望朝着这些主题努力,最终形成下一代基础设施。
2. 资源管理实践
当字节跳动大量业务完成云原生转型,实现资源统一托管之后,从全局来看,如何高效地管理和运营集团资源?这是我们面临的第一个问题。要回答好这个问题,首先需要解释一下理想的资源管理模型。
资源管理的理想状