导言
WeChat TFCC是微信技术架构部后台团队研发的服务端深度学习通用推理框架,也是腾讯深度学习与加速Oteam云帆的开源协同成果,具有高性能、易用、通用的特点,已在微信视频号、微信开放平台推荐系统、微信画像、微信智聆语音识别、语音合成等业务广泛使用; 支持81个ONNX Operation和108个Tensorflow Operation,覆盖推荐、NLP、语音等场景的各种主流模型,同时更多的Operation在持续接入中。
整体结构
WeChat TFCC由Library、Runtime、Generator三大组件构成,通过层层抽象、互相配合的方式,在保证高性能的前提下,极大的提高了扩展性和通用性。整体结构如下:

高性能
TFCC通过模型结构优化、常数跟踪、算子优化等多方面技术优化通用模型推理性能,在微信的各类业务模型中取得很好的性能效果。以BERT(bert-base)模型为例(如下图所示),在Intel CPU、Nvidia GPU平台的QPS对比,TFCC性能处于较高水准。


模型结构优化
模型结构优化包含常数折叠、模型剪枝、算子融合等。常数折叠可以预先算好部分数据,减少线上运行时的计算量。模型剪枝是减少模型的无用分支,算子融合是将多个小算子融合成一个大算子,减少内存和显存的带宽压力

WeChat TFCC是由微信技术架构部研发的高性能、易用、通用的深度学习推理框架,已在多项业务中应用。它支持ONNX和Tensorflow Operation,涵盖推荐、NLP、语音等场景,提供模型结构优化、常数跟踪、算子优化等功能,具有硬件通用性。TFCC通过类编译器架构转换模型,并通过Runtime动态生成执行链,实现业务快速部署。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



