文档的向量化表示:BOW假设和VSM模型
文本向量化的目的:便于计算文档时间的相似度
BOW(bag-of-words model):假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。

VSM(Vector space model):即向量空间模型。其是指在BOW假设下,将每个文档表示成同一向量空间的向量。

BOW-VSM栗子
停用词(stop words)
**停用词:**非常常见且实际意义有限的词。几乎可能出现在所有场合,因而对某些应用比如信息检索、文本分类等区分度不大
停用词的过滤一般根据实际情况而定
N-gram模型