sklearn-CountVectorizer的学习笔记

CountVectorizer()使用

from sklearn.feature_extraction.text import CountVectorizer#文本特征提取
cv=CountVectorizer()

texts=["orange banana apple grape","banana apple apple","grape","orange apple"]

cv_fit=cv.fit_transform(texts)
#cv.fit(texts)#这两行效果和上一行一样,但是索引号不同,这个按照数字大小定的索引号
#cv_fit=cv.transform(texts)

print(cv.vocabulary_)#输出格式为'word': c,word就是这个单词;c就是它的索引号
print(cv_fit)#输出格式为(i,j) c,表达的是第i个字符串;j表示索引号,如果是字符,是按照字母顺序定的索引号;c代表的是该单词在该字符串中出现的次数
print(cv_fit.toarray())#输出格式如下,每个元素可表示为c[i][j]即次数,i相同时代表同一个字符串中各个单词出现的次数,j相同时代表同一个单词在各个字符串中出现的次数
                       #          [[c00,c01,c02,c03]
                       #           [c10,c11,c12,c13]
                       #           [c20,c21,c22,c23]
                       #           [c30,c31,c32,c33]]

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值