NLP/AI面试题总结
NLP/AI面试题总结:
https://zhuanlan.zhihu.com/p/57153934
ID3、C4.5、CART、RF、boosting、Adaboost、GBDT、xgboost模型:https://zhuanlan.zhihu.com/p/34534004
BERT模型压缩有哪些方法?
nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
https://zhuanlan.zhihu.com/p/76912493
NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结
https://zhuanlan.zhihu.com/p/115014536

里面有涉及到模型压缩的部分。
BERT变种
原文链接:https://blog.youkuaiyun.com/qq_39006282/article/details/107251957
1)word embedding太大
不需要花哨的解释,word embedding设置多大见仁见智,适当就好。ALBERT试验发现原先的300确实没必要,可以适当缩减,对网络没影响。
但尴尬的是在SST-2数据集上768比256尺寸效果好得有点多,这就有点打脸了。
2)参数共享
在Bert里encoder可以共享层参数,也可以共享attention。
ALBERT选择全都共享。自身比较来看带共享会降2%的准确率。与Bert相比,无论是base还是large,xlarge,效果都要低一点。值得注意的是Bert在xlarge时效果下降很大,因为模型震荡很厉害,ALBERT因为参数共享,震荡的空间不大,所以准确率随着模型增大依然能稳步上

最低0.47元/天 解锁文章
1061

被折叠的 条评论
为什么被折叠?



