文本向量的表示方法
基于词向量的表示方法
虽然one-hot和TF-IDF的表示方式也成为词向量,但是我们这里讨论的基于词向量的表示方式是围绕分布式词表征进行的。也就是利用Word2Vec、GloVe和fastText等词向量对文本进行表示,词向量可以根据任务或者资源的不同随意选择,文本表示的方法是通用的。
首先我们根据语料库训练词向量,也就是针对文本中的每个词汇,我们均有它的向量表示。当要获得每个文本的向量表示,可以将文本中出现的词汇进行求和、求平均以及加权求和等方式获取最后的结果。
求和与求平均的方式相对简单,此处不再赘述。如何进行加权求和可以针对任务的需求进行。常见的方式为TF-IDF加权的文本表示。
S e n t e n c e V e c t o r ( s ) = ∑ i n ( T F − I D F ( w o r d i ) × W o r d 2 V e c ( w o r d i ) ) 其 中 w o r d i ∈ s SentenceVector(s) = \sum_i^n (TF - IDF(word_i) \times Word2Vec(word_i)) \\其中 word_i \in s SentenceVe