DL-Paper精读:MobileBERT

MobileBERT是针对资源有限设备的紧凑型任务无关预训练模型,通过预训练阶段的知识蒸馏从IB-BERT(反瓶颈结构)获取。与BERT相比,MobileBERT实现了约20倍的参数缩减,4.3×的压缩和5.5×的加速,同时保持了较高的精度。关键创新点包括使用瓶颈结构、堆叠FFN操作以及移除LN和Gelu层。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MobileNERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

https://arxiv.org/abs/2004.02984

Background

BERT在NLP领域的地位是举足轻重的,其预训练模型,在多种下游任务的迁移工作中都能给出非常好的效果。但于此同时,BERT也受困于其庞大的模型参数和较慢的运行速度,尤其是在于一些资源受限的移动端部署任务中,BERT的实际应用是非常受限的。

Related work and the limit

目前,针对BERT的压缩研究工作已有很多。比如distill BERT等工作,通过知识蒸馏,来获得一个高精度的小模型。但是这些工作一般都是基于具体下游任务场景的(“task-specifically”),这些工作的一般流程是首先将预训练的BERT模型在具体任务中进行fine-tune,然后再进行蒸馏来获得小模型。该过程是比较耗时且繁琐的,不如直接来fine-tune一个任务无关(“task-agnostic”)的小的预训练模型。但是如果直接预训练一个较窄或较浅的BERT,又会造成较严重的精度损失,无法达到原始BERT的精度。

Novel points

在预训练的阶段来进行知识蒸馏,获得一个压缩版的小BERT(m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值