- sklearn CountVectorizer函数详解
from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)
print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit)
- 返回的结果为稀疏矩阵
['bird', 'cat', 'dog', 'fish']
[[0 1 1 1]
[0 2 1 0]
[1 0 0 1]
[1 0 0 0]]
(0, 3) 1
(

本文详细介绍了sklearn库中的CountVectorizer、TfidfTransformer和TfidfVectorizer函数。CountVectorizer生成稀疏矩阵,TfidfTransformer转换为TF-IDF表示。TfidfVectorizer结合了两者功能,并支持n-gram和停用词设置,但停用词仅支持英文。
最低0.47元/天 解锁文章
4642

被折叠的 条评论
为什么被折叠?



