词嵌入:word embedding
Introduction
用vector来表示一个word,最传统的做法是1-of-N Encoding,可以把有同样性质的word进行聚类,划分成多个class,然后用word所属的class来表示这个word,最后把每一个word都投影到高维空间上进行Word Embedding
word embedding是一个无监督的方法(unsupervised),只要让机器阅读大量的文章,它就可以知道每一个词汇embedding之后的特征向量应该长什么样子
我们的任务就是训练一个neural network,input是词汇,output则是它所对应的word embedding vector
Word Embedding
基本精神就是,每一个词汇的含义都可以根据它的上下文来得到
Count based
假如 w i w_i wi和 w j w_j wj这两个词汇常常在同一篇文章中出现,它们的word vector分别用 V ( w i