无监督学习(unsupervised learning) 2.词嵌入
Word Embedding
- 1-of-N Encoding:每一个词用一个向量表示,该词对应其中的一维
↓ - word class:词分类
↓ word enbedding:嵌入到一个高维空间里
- count based:wi和wj经常同时出现,V(wi)和V(wj)就会接近,V(wi)V(wj)↔Nij (共同出现的次数)
- prediction based:预测下一个可能出现的word,wi−1→wi
- sharing parameters:z=W1wi+W2wj,W1=W2=W
- Continuous bag of word(CBOW):利用两边的词汇预测中间
- Skip-gram:利用中间词汇预测两边
multi-lingual embedding
- multi-domain embedding
- document embedding:semantic embedding
- 词汇顺序的影响!会造成不同的语意