CountVectorizer()使用
from sklearn.feature_extraction.text import CountVectorizer#文本特征提取
cv=CountVectorizer()
texts=["orange banana apple grape","banana apple apple","grape","orange apple"]
cv_fit=cv.fit_transform(texts)
#cv.fit(texts)#这两行效果和上一行一样,但是索引号不同,这个按照数字大小定的索引号
#cv_fit=cv.transform(texts)
print(cv.vocabulary_)#输出格式为'word': c,word就是这个单词;c就是它的索引号
print(cv_fit)#输出格式为(i,j) c,表达的是第i个字符串;j表示索引号,如果是字符,是按照字母顺序定的索引号;c代表的是该单词在该字符串中出现的次数
print(cv_fit.toarray())#输出格式如下,每个元素可表示为c[i][j]即次数,i相同时代表同一个字符串中各个单词出现的次数,j相同时代表同一个单词在各个字符串中出现的次数
# [[c00,c01,c02,c03]
# [c10,c11,c12,c13]
# [c20,c21,c22,c23]
# [c30,c31,c32,c33]]