bert论文学习之简评

最新推荐文章于 2024-12-25 21:48:34 发布

你是兰亭先生的序

最新推荐文章于 2024-12-25 21:48:34 发布

阅读量308

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/toretto_ana/article/details/94642061

深度学习专栏收录该内容

2 篇文章

订阅专栏

Pre-training of Deep Bidirectional Transformers for Language Understanding

对于现有的NLP任务，我们这样说似乎是无可厚非的，那就是对文本抽象出某种合适的数值表征，是十分重要的。

因为不同的表征所内涵的语义信息，段落信息是不同的；在我们熟知的语言模型中，Word2vec，elmo都是很出色的，这两者分别用浅层神经网络和双向LSTM提取词向量。对于本篇中的bert，与这两者有很大区别。bert采用很深的双向transformer，并且引入了mask language model和next sentence预测，可以实现对大规模的无标签文本进行训练，提取词语表征；可以想象，这样的词向量是很具有普遍性语义信息的。对于为何要遮蔽一些词，可能是可以通过学习上下文语境对遮蔽的词进行预测，这属于token级别的信息表达；另外对于下一句话的预测，属于句子级别的信息表达。bert模型之所以选择transformer作为基本处理器，而没有选择biLSTM，是作者认为transformer更能实现双向信息提取。毕竟biLSTM属于从左到右和从右到左词向量的concat，属于两个独立过程的拼接。bert的不足之处，首先就是需要大规模的语料才能训练处大量的参数，而且需要昂贵的算力设施。其次就是模型输入的position信息，代表序列顺序信息，相比于LSTM，可以说有点薄弱。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。