自然语言处理(四)神经网络语言模型及词向量

本文介绍了神经网络语言模型,包括NNLM和RNNLM,探讨了它们在克服统计语言模型缺点上的作用。此外,还详细阐述了词向量的不同表示方法,如One-hot、词袋模型、TF-IDF到分布式表示,并重点讨论了词向量工具word2vec中的CBOW和Skip-gram模型。最后,提到了词向量在各种自然语言处理任务中的应用和选择模型的建议。

神经网络语言模型

用句子SSS的概率p(S)p(S)p(S)来定量刻画句子。
统计语言模型是利用概率统计方法来学习参数p(wi∣w1…wi−1)p(w_i|w_1\dots w_{i-1})p(wiw1wi1),神经网络语言模型则通过神经网络学习参数.

统计语言模型的缺点

  • 平滑技术错综复杂且需要回退至低阶,使得该模型无法面向更大的n元文法获取更多的词信息.
  • 基于最大似然估计的语言模型缺少对上下文的泛化,如观察到蓝汽车和红汽车不会影响出现黑汽车的概率.

神经网络语言模型

根据所用的神经网络不同,可以分为

  • NNLM模型(DNN)
  • RNNLM模型(RNN)

NNLM

NNLM结构.jpg

输入X:wi−1X:w_{i-1}X:wi1

输出p(wi∣wi−1)p(w_i|w_{i-1})p(wiwi1)

参数θ=H,U,b1,b2\theta = {H,U,b^1,b^2}θ=H,U,b1,b2

运算关系

p(wi∣wi−1)=exp⁡(y(wi))∑k=1∣V∣exp⁡(y(vk))y(wi)=b2+U(tanh⁡(XH+b1))p(w_i|w_{i-1}) = \frac{\exp(y(w_i))}{\sum_{k=1}^{|V|}\exp(y(v_k))}\\ y(w_i) = b^2 + U(\tanh(XH+b^1)) p(wiwi1)=k=1Vexp(y(vk))exp(y(wi))y(wi)=b2+U(tanh(XH+b1))
目标函数
采用log损失L(Y,P(Y∣X))=−log⁡P(Y∣X)L(Y,P(Y|X)) = - \log P(Y|X)L(Y,P(YX))=log

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值