
预训练语言模型
文章平均质量分 75
NLP中的预训练模型
为算法工程师
这个作者很懒,什么都没留下…
展开
-
BERT.
BERTBERTBERT输入输出表征BERT预训练篇Masked LMNSPBERT损失函数BERT细节BERT输入BERT是怎么用Transformer的BERT问题BERTBERT是基于transformer的双向编码器,旨在通过在上下文中共有的条件计算预先训练来自无标签文本的深度双向表示。BERT的三个关键点:基于transformer结构(encoder端)大规模语料预训练深度双向模型,即BERT可以在训练阶段从所选文本的左右上下文中汲取信息。BERT输入输出表征BERT输入:原创 2021-10-11 18:37:29 · 769 阅读 · 0 评论 -
Generative Pre-training
GPTGPTGPT网络结构GPTGPT使用的是transformer的decoder端,将其进行修改用于预训练模型。decoder部分整体是一个类似RNN的循环网络结构,模型在时间步i只能看到i之前的时间步及其输出情况,而不知道i时间步之后的输出情况。在训练阶段GPT利用mask机制将i之后的输出屏蔽掉。即GPT是一种单向模型。GPT网络结构...原创 2021-10-11 16:21:57 · 1451 阅读 · 0 评论 -
Elmo.
ElmoElmo动机Elmo思想Elmo网络结构Elmo细节Elmo问题Elmo动机以往方法的问题:多义词问题:one-hot、word2vec、fastText 为静态方式,即训练完成后,每个词的表达固定。单向性问题:one-hot、word2vec、fastText 都是 从左向右 学习,导致该方法 不能 同时考虑 两边信息。Elmo思想预训练时,利用语言模型学习一个单词的embedding。(此时没有解决多义词问题)微调使用时,单词间具有特定上下文,可以根据上下文单词语义调整单词的e原创 2021-10-11 15:16:10 · 213 阅读 · 0 评论 -
fasttext
fasttextword-level ModelCharacter-Level Model三级目录word-level Model以word(词)作为基本单位的模型,这种方式可以很好地对词库中每一个词进行向量表示存在问题:OOV问题:容易出现单词不在词库中地情况解决办法:最佳语料规模,使系统能够获得更多地词汇量误拼障碍解决办法:拼写矫正、规则约束做翻译问题时,音译姓名比较难做到Character-Level Model基于char(字符)作为基本单位的模型,这种方式可以很好地对字库中转载 2021-10-11 10:30:17 · 250 阅读 · 0 评论 -
word2vec
word2vecWordvecword2vec优化方法霍夫曼树负采样word2vec问题Wordvecword2vec是指一个词语转换为对应词向量。word2vec建模的目的是为了获取建模的中间参数。word2vec两种模型结构:CBOW、skip-gram。CBOW使用周围词预测中心词。输入输出介绍:输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。输入是经one-hot编码的,通过一个隐层进行求和操作,最后通过激活函数softmax输出中间词的概率Ski原创 2021-10-08 21:34:13 · 201 阅读 · 0 评论 -
word embedding
word embedding词嵌入离散表示one-hot表示词袋模型TF-IDFn-gram模型离散表示存在的问题分布式表示共现矩阵神经网络表示NNLM词嵌入词嵌入: 把词映射为实数向量的技术。NLP任务中,文本表示是第一步,即将文本转变为机器可以计算的数字表示–>将词映射为词向量。早期的表示方法有:one-hot表示、词袋模型、TF-IDF、n-gram模型等。离散表示one-hot表示即独热编码,其步骤为构造文本分词后的字典,每个分词是一个比特值,比特值为0或1每个分词的文本表示转载 2021-09-28 18:41:23 · 212 阅读 · 0 评论