CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法如LDA。 在fitting过程中,countvectorizer将根据语料库中的词频排序从高到低进行选择,词汇表的最大含量由vocabsize参数来指定。一个可选的参数minDF也影响fitting过程,它指定词汇表中的词语至少要在多少个不同文档中出现。
1、vocabSize 词典表的大小
/**
* 词典的大小 默认为math.pow(2,18)
* 关于词的选择:先对词典做wordcount然后去top vocabSize个特征放入词典
* Default: 2^18^
* @group param
*/
val vocabSize: IntParam =
new IntParam(this, "vocabSize", "max size of the vocabulary", ParamValidators.gt(0))
2、minDF 语料中词的逆词频
/**
* DF代表该特征在多少个语料库中出现过 minDF代表出现在字典中DF的下限
* 如果传入的是Int类型 则代表特征出现文档的次数
* Default: 1.0
* @group param
*/
val minDF: DoubleParam = new DoubleParam(this, "minDF", "Specifies the minimum number of" +
" different documents a term must appear in to be includ