Part6.第12章

第12章

NLP常见任务

在这里插入图片描述

词典生成

在进行NLP任务时,因为输入的是文本序列。文本是由多个词构成的,词是有意义的最小单元,所以在NLP任务中,一般处理的基本单元是词。NLP模型处理的最小输入输出单元叫做Token。

特殊的Token
在这里插入图片描述
在这里插入图片描述

Token编码

原文链接
词嵌入(Word Embedding)是一种将Token编码成低维、稠密向量的技术。词嵌入的目标是通过学习,将语义相似的词映射到空间中相近的位置上。这里的词指的就是Token。
Google在2013年提出的Word2Vec,是最著名的词嵌入实验。Word2Vec用了两种训练方法,分别是CBOW(Continuous Bag of Words)和 Skip-gram
这两种训练方法的目标相同:从大量无标签文本中学习高质量的词向量,这些向量能够捕捉词语的语义和语法信息。但它们的实现方式和侧重点有所不同。
核心思想:
两者都基于分布式假设:一个词的语义由其出现的上下文决定。
它们都是浅层神经网络模型。
它们都采用无监督学习,只需要大量的原始文本。

CBOW
是一种通过上下文预测中心词的词向量训练模型。其核心思想是用上下文词向量的平均值预测中心词。这里的词指的就是Token。
在这里插入图片描述
Skip-gram
Skip-gram与CBOW刚好相反,它是利用中心词来预测上下文的词。Skip-gram模型的输入只有一个Token,所以不需要进行多Token Embedding的平均,直接用输入Token的Embedding作为输入,然后和CBOW一样接一个线性分类头,预测输出Token。经过大量训练后也可以得到很好的Embedding矩阵。
值得注意的是在训练CBOW和Skip-gram模型时,需要平衡常见词和罕见词的影响。可以对常见词进行下采样,或者对罕见词进行上采样。

语言模型采样

Beam Search
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值