字典特征抽取
类: sklearn.feature_extration.DictVetorizer
DictVetorizer.fit_transform(x) //x为字典或者字典的迭代器 返回数组后者矩阵
DictVetorizer.inverse_transform(x) //和上面操作相反
DictVetorizer.get_feature_name() //返会类别名称。
作用:把字典中字符串类的转化为数值。
文本特征抽取
类:DictVetorizer.feature_extration.text.CountVectorize
方法一样。
只对英文文章有用。
如果对中文有用。要用jieba分词。
pip install jieba
重要性评估:就是一个词语在一篇文章出现的比例大
类:DictVetorizer.feature_extration.text.TfidfVetorizer
概念:
tf:这个词出现的频率(次数)
idf:总文章数量/这个词出现过文章的次数
重要性 = tf * idf
k近0算法(实际就是距离公式)
类:sklearn.neightbors.KNeightborsClassfier(n_neightbors=5,algorthm=‘aoto’)
- n_neightbors 使用的邻居数,默认为5
- algorthm 找邻居的算法 【’auto‘,‘ball_tree’,kd_tree,brute】
本文介绍使用sklearn库中的DictVectorizer进行特征抽取,将字典中的字符串转化为数值,适用于文本特征处理。同时,讲解了CountVectorizer和TfidfVectorizer在文本特征抽取中的应用,以及K近邻算法的原理和参数设置。
3125

被折叠的 条评论
为什么被折叠?



