TfidfVectorizer(TF-IDF接口)
参数(由于参数太多,这里就介绍了几个,以后用到再从源码中学)
input : {'filename', 'file', 'content'}, default='content';这里只介绍"filename"和"content",一般使用是都配合它的fit_transform方法使用,使用方法见下面代码。
encoding : str, default='utf-8'
strip_accents : {'ascii', 'unicode'} or callable, default=None;去除口音,默认不做任何操作。
ngram_range : tuple (min_n, max_n), default=(1, 1);词组切分的长度范围,根据参数值将内容分成不同的长度,比如“Python is useful”中ngram_range(1,3)之后可得到’Python’ ‘is’ ‘useful’ ‘Python is’ ‘is useful’ 和’Python is useful’如果是ngram_range (1,1) 则只能得到单个单词’Python’ ‘is’和’useful’