一、文章主要内容总结
该研究针对移动边缘设备等资源受限场景下NLP模型部署的核心痛点(隐私合规、实时响应、多任务支持),提出了EI-BERT(Edge ultra-lIte BERT)框架,通过“硬令牌剪枝+交叉蒸馏+参数量化”的全流程压缩方案,实现了超紧凑的BERT-based模型。核心成果包括:
- 极致压缩性能:最终模型仅1.91MB,相比BERT-base压缩99.5%,是目前已知最小的NLU任务专用模型,且在CLUE基准和支付宝内部数据集上保持稳健性能;
- 核心技术 pipeline:
- 学生模型预训练:基于tiny ALBERT2,通过因子化嵌入和跨层参数共享简化架构;
- 硬令牌剪枝:基于注意力概率计算令牌重要性,剔除冗余令牌以降低存储负担;
- 交叉蒸馏:创新地让教师模型“换位思考”,通过参数整合(复用教师任务特定层)和师生动态交互(交替更新、双损失函数对齐)实现高效知识迁移;
- 模块级INT8量化:在关联层间全局最小化量化误差,适配移动硬件;
- 工业级部署验证:已成功应用于支付宝生态三大核心场景(边缘推荐系统、智能助手、小程序隐私NLU),支持840万日活设备,实现低延迟(95分位延迟<80ms)、隐私保护(本地处理)和业务指标提升(如优惠券推荐CTR提升3.3%)。

订阅专栏 解锁全文
3601

被折叠的 条评论
为什么被折叠?



