NLP基础2-词向量之Word2Vec

NLP基础1-词向量之序号化,One-Hot,BOW/TF,TF-IDF
NLP基础2-词向量之Word2Vec
NLP基础3-词向量之Word2Vec的Gensim实现


一、Word Embedding

1. 什么是词嵌入,Word Embedding?

词嵌入是一种将词汇表中的单词或短语映射为固定长度向量的技术,通过词嵌入技术我们可以将 one-hot 编码表示的高维稀疏向量转为低维稠密的向量。

举例说明

我门将单词 “we” 用 one-hot 编码表示,维度为(1,N),其中 N 为词汇表大小
词嵌入层的维度大小为(N,V),其中 V 为嵌入层维度,通常为 100 左右
(1,N)* (N,V)= (1,V),该低维稠密的向量就可以表征单词 “we”
Note: 由于one-hot编码只在对应位置为1,其余位置均为0,这就类似于在词嵌入层中的查找某一行的向量,因此词嵌入层的每一行其实就是代表一个单词的特征信息

Embedding

2. 词嵌入技术的优势:

  1. 相比上万维的 ont-hot 编码,词嵌入的效率更高并且更具有通用性,可以用在不同的NLP任务中;
  2. 可以理解单词与单词之间的语义信息,并进行词语推理,语义相似的词在向量空间上也会更相近;

3. 词嵌入的相关算法

  1. 基于矩阵分解的主题模型:LDA,NMF 等
  2. 基于神经网络的 Word2Vec:CBOW,Skip-Gram 等

二、Word2Vec 基本介绍

1. 两个算法:

continuous bag-of-words(CBOW) 和 Skip-gram

  • CBOW 是根据上下文预测中心词
  • Skip-gram 则相反,是根据中心词预测上下文

这两种方法训练得到的隐层参数即为词向量

在这里插入图片描述

2. 两个优化方法

  • 负采样 (Negative Sampling)
  • 层次 Softmax (Hierarchical Softmax)

相关论文:Mikolov et. al., 2013. Efficient estimation of word representations in vector space.

3. 主要应用

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值