关于词向量

本文探讨了词向量的表示方法,从One-hot Represention到Distributed Representation,包括NNLM、RNNLM、COBW和Skip-gram模型。这些模型通过不同的方式解决了词汇鸿沟和维数灾难问题,降低了训练复杂度,并介绍了word2vec模型的创新之处,如上下文窗口、线性关系替代非线性隐层以及负采样技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考论文:Efficient Estimation of Word Representations in
Vector Space

One-hot Represention

在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。
每个词都是茫茫词海中的一个1。
假设语料库中有V个词,那么语料库中的任一词都可以表示为一个长度为V的向量,另外,每个词都有一个unique的id,one-hot将向量中词id相应位置置为1,其他位置为0来表示这个词。因而,可以想象如果将V个词的one-hot represention形成V*V的矩阵,那么这个矩阵是多么稀疏。
优点:简单
缺点:1>容易形成词汇鸿沟,即不能刻词与词之间的相似性。2>当V足够大时,容易形成维数灾难

Distributed Representation

**

NNLM(Feedforward Neural Net Language Model )

**
针对One-hot Representation存在的问题,Distributed Representation最早有Hinton在1986年在《Learning distributed representations of concepts》提出,用一个具有固定长度的向量来表示一个词。Bengio在2003提出了NNLM语言模型训练词向量。NNLM的前向神经网络涉及到线性投射层(Projection Layer)和非线性隐层(Hidden Layer)。
NNLM语言模型的网络结构包括输入层、投射层、隐层和输出层。下图给出了NNLM的网络结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值