sklearn

本文介绍使用sklearn库中的DictVectorizer进行特征抽取,将字典中的字符串转化为数值,适用于文本特征处理。同时,讲解了CountVectorizer和TfidfVectorizer在文本特征抽取中的应用,以及K近邻算法的原理和参数设置。
字典特征抽取

类: sklearn.feature_extration.DictVetorizer
DictVetorizer.fit_transform(x) //x为字典或者字典的迭代器 返回数组后者矩阵
DictVetorizer.inverse_transform(x) //和上面操作相反
DictVetorizer.get_feature_name() //返会类别名称。
作用:把字典中字符串类的转化为数值。

文本特征抽取

类:DictVetorizer.feature_extration.text.CountVectorize
方法一样。
只对英文文章有用。
如果对中文有用。要用jieba分词。

pip install jieba

重要性评估:就是一个词语在一篇文章出现的比例大
类:DictVetorizer.feature_extration.text.TfidfVetorizer
概念:
tf:这个词出现的频率(次数)
idf:总文章数量/这个词出现过文章的次数
重要性 = tf * idf

k近0算法(实际就是距离公式)

类:sklearn.neightbors.KNeightborsClassfier(n_neightbors=5,algorthm=‘aoto’)

  • n_neightbors 使用的邻居数,默认为5
  • algorthm 找邻居的算法 【’auto‘,‘ball_tree’,kd_tree,brute】
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值