scikit-learn：0.4 使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参

最新推荐文章于 2025-09-16 07:30:52 发布

原创

最新推荐文章于 2025-09-16 07:30:52 发布 · 3.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #机器学习 #网格搜索 #pipeline

本文介绍了如何利用scikit-learn的Pipeline将文本数据预处理（vectorizer）、转换（transformer）和分类器（classifier）进行整合，并通过网格搜索进行参数调优。

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

<strong>1、使用“Pipeline”统一vectorizer => transformer => classifier</strong>
from sklearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer()),
...                      ('tfidf', TfidfTransformer()),
...                      ('clf', MultinomialNB()),
... ])

text_clf = text_clf.fit(rawData.data, rawData.target)
predicted = text_clf.predict(docs_new) 
<strong>#注意，这里是未经任何处理的原始文件，不是X_new_tfidf，否则出现下面错误。</strong>

np.mean(predicted == y_new_target)
Out[51]: 0.5

predicted = text_clf.predict(X_new_tfidf)
Traceback (most recent call last):

  File "<ipython-input-52-20002e79f960>", line 1, in <module>
    predicted = text_clf.predict(X_new_tfidf)

  File "D:\Anaconda\lib\site-packages\sklearn\pipeline.py", line 149, in predict
    Xt = transform.transform(Xt)

  File