***Lesson 7 词向量与相关应用

本文探讨了多种词向量表示方法,包括one-hot、bagofwords、tf-idf等传统表示,以及分布式表示、共现矩阵+SVD、NNLM、word2vec(CBOW/Skip-gram)、sense2vec和Glove等现代技术。详细解析了word2vec的CBOW和Skip-gram模型结构,以及层次softmax和负例采样技术。文章还介绍了词向量表示在NLP领域的应用,并推荐了googleword2vec和gensim等工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、词向量表示

首先回顾一些文本表示方式:
one-hot
bag of words
tf-idf
binary weighting
bi-gram && n-gram
以上的表示方式都存在一个问题,即这些word表示方式均无法度量word和word之间的相似度。
为解决这一问题,学者提出了几种word表示方式:

  • 分布式表示: 用一个词附近的其他词来表示该词

  • 共现矩阵: 生成词表,vector的维度=length of dictionary,对于某单词w的vector表示,其第i维的value为w与word_i同时出现的次数。具体示例如下所示:单词I的vector为下列矩阵中I所对应的行,生成该共现矩阵的corpus为下面的3句话:

    利用共现矩阵形成的“词表示”,会随着词典的变大而变得越来越稀疏 且 维度变大,为了避免这一现象,可以用SVD对共现矩阵进行降维,从而降低“词表示”的稀疏性;
    即:共现矩阵 + SVD,如下图所示:

    但是,SVD 降维存在如下问题:

  • NNLM(Neural Network Language model): 该模型已经与word2vec非常接近了,其与word2vec(CBOW)最大的区别在于:NNLM采用的滑窗为“前向滑窗”,而在CBOW中,为“双向滑窗”;

  • word2vec
    word2vec有2个模型:CBOW 和 Skip-gram;
    CBOW结构如下:

    CBOW模型存在一个问题,即其output length为length of dictionary,会造成学习压力,为了改善这一downside,学者提出了如下两种方法:
    1)层次softmax


    2)负例采样


    Skip-gram结构如下:
    在这里插入图片描述
    word2vec虽然能够度量word和word之间的相似度,但是,其仍存在如下问题:

  • sense2vec: 可以通过词性标注,在一定程度缓解一词多义时,词表示单一的局限:

  • Glove 参考博文:
    理解GloVe模型(+总结)
    GloVe详解

二、词向量表示的应用

三、word2vec工具

  • google word2vec
  • gensim
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sarah ฅʕ•̫͡•ʔฅ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值