sklearn特征提取

TfidfVectorizer(TF-IDF接口)

参数(由于参数太多,这里就介绍了几个,以后用到再从源码中学)

input : {'filename', 'file', 'content'}, default='content';这里只介绍"filename"和"content",一般使用是都配合它的fit_transform方法使用,使用方法见下面代码。

encoding : str, default='utf-8'

strip_accents : {'ascii', 'unicode'} or callable, default=None;去除口音,默认不做任何操作。

ngram_range : tuple (min_n, max_n), default=(1, 1);词组切分的长度范围,根据参数值将内容分成不同的长度,比如“Python is useful”中ngram_range(1,3)之后可得到’Python’ ‘is’ ‘useful’ ‘Python is’ ‘is useful’ 和’Python is useful’如果是ngram_range (1,1) 则只能得到单个单词’Python’ ‘is’和’useful’

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值