京东广告算法架构体系建设--高性能计算方案最佳实践 | 京东零售广告技术团队

原创

于 2024-01-31 16:01:17 发布 · 1.6k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #架构 #零售

文章介绍了京东零售如何通过分布式分图异构计算框架和GPU优化技术，解决高并发、高实时的在线推理难题，包括资源成本优化、复杂算法模型扩展和GPU算力挖掘。这些优化措施已在广告业务中实现大规模模型的性能提升和效果收益。

1、前言

推荐领域算法模型的在线推理是一个对高并发、高实时有较强要求的场景。算法最初是基于Wide & Deep相对简单的网络结构进行建模，容易满足高实时、高并发的推理性能要求。但随着广告模型效果优化进入深水区，基于Transformer用户行为序列和Attention的建模逐渐成为主流，这个阶段模型的特点是参数的体量、网络结构复杂度呈指数级增长，算法建模的创新工作往往由于吞吐和耗时的性能算力问题，导致无法落地于在线推理获得效果收益。传统通过扩容资源的方式，其边际效应也在减弱，算力优化存在诸多挑战：

1、高算力需求下的资源成本边际效应问题：集群资源扩容是提升算力的一种传统方案，但算力需求的增加往往需要成倍数的资源增长才能抹平，带来了极强的边际递减效应。

2、复杂算法模型的在线推理算力扩展问题：推理引擎要求低延迟和高吞吐，而随着模型算法复杂度提升，突破计算资源算力上限（存储、计算），推理耗时显著增加，无法满足实时推荐系统的性能要求。

针对上述挑战和问题，广告算法架构在迭代演变的过程中，构建了一系列的优化体系，主要集中在两个方面：

1、架构层面：设计分布式分图异构计算框架，通过模型分图，分布式推理实现算力的向外扩展；CPU&GPU异构硬件差异化部署，算法结构与计算硬件资源相得益彰，最大化硬件适配性，实现算力的指数级增长。算力扩展的架构使得后续垂向优化成为可能，可以针对特定业务需求进行深度定制和调整。

2、高算力推理引擎层面：从底层架构出发，GPU算子调度和计算逻辑精细化优化，深入挖掘GPU专用计算设备的潜力，实现对推理性能的显著提升。

2、分布式分图异构计算框架

分布式分图异构计算框架是我们针对算力扩展问题提出的解决方案，通过模型结构化拆分，分布式分图计算，CPU&GPU异构硬件差异化部署，使算法结构与计算硬件资源高度适配，充分发挥各自优势。基于CPU计算集群构建大规模稀疏模型建模，利用内存资源易扩展等优势，支撑千亿规模参数的高性能推理。基于GPU计算集群构建稠密模型建模，利用高算力优势，支撑超长用户行为序列建模，为算法建模的创新提供了坚实的架构基础。我们基于该框架进一步研发并落地了京东零售首个Online Learning建模场景，使得模型可以感知人、货、场的实时变化。同时GPU服务集群作为独立于整体服务体系的组成部分，便于针对GPU推理引擎进行专项优化，从而便捷地进行性能提升措施的实施。