NLP
文章平均质量分 95
Taylorandy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BERT原理加代码解读
BERT原理 BERT是google在2018年提出的一种全新的预训练语言模型, BERT的预训练是同时考虑左边和右边上下文的双向表示。将预训练好的BERT表示应用到各个任务时只需要微调最后一层就能达到最佳效果。 主要贡献可以归纳以下三点: 1、 我们证明了预训练双向语言模型对于语言表示的重要性,不向之前的尝试都是单向的语言模型,BERT使用遮盖(masked)语言模型解决双向表示问题。 2、 我们证明了预训练的表示可以取代大量的任务特定的特征工程结构。BERT是第一个基于微调的表示原创 2021-07-12 23:32:54 · 1515 阅读 · 0 评论 -
Transformer最详细的原理加代码解读
Transformer原理1. motivation 为了解决seq2seq的问题,之前一般都是使用RNN模型进行求解。RNN的一大劣势就是无法进行并行化计算,比如要想输出b4b^4b4就必须要先获得a1a^1a1到a4{a^4}a4才行。而接下来就有学者想采把CNN用来取代RNN,每个小三角形都是一个filter,但是问题是如下图所示每个小三角仅能考虑到很少的一部分输入,但是我们可以通过叠多层的CNN,则上层的filter就可以考虑到比较多的语句,如下所示蓝色的filter可以看到b1b^1b1到原创 2021-07-12 23:38:19 · 1748 阅读 · 0 评论
分享