scikit-learn:训练分类器、预测新数据、评价分类器

该博客详细介绍了如何利用scikit-learn库训练分类器,处理文本数据,并评估分类器的性能。内容涵盖了从预处理文本到构建模型的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html


构建分类器,以NB为例:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_tfidf, rawData.target)

要预测新样本,需要使用和训练集完全相同的特征提取方法,不同点是,只要call transform instead of fit_transform on the transformers,因为我们在训练集上已经fit过了。
docs_new = ['i love this book', 'the book is not so good']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = clf.predict(X_new_tfidf)
for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, rawData.target_names[category]))   
'i love this book' => positive_folder
'the book is not so good' => positive_folder

评估分类器效果:
y_new_target=[1, 0]
import numpy as np
np.mean(predicted == y_new_target)
Out[42]: 0.5

from sklearn import metrics
print(metrics.classification_report(y_new_target, predicted,
...     target_names=rawData.target_na
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值