我喜欢运行以下工作流程:
选择用于文本向量化的模型
定义参数列表
在参数上应用带有GridSearchCV的管道,使用LogisticRegression()作为基线以找到最佳的模型参数
保存最佳模型(参数)
加载最佳模型参数,以便我们可以在此定义的模型上应用一系列其他分类器。
这是您可以复制的代码:
GridSearch:
%%time
import numpy as np
import pandas as pd
from sklearn.externals import joblib
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from gensim.utils import simple_preprocess
np.random.seed(0)
data = pd.read_csv('https://pastebin.com/raw/dqKFZ12m')
X_train, X_test, y_train, y_test = train_test_split([simple_preprocess(doc) for doc in data.text],
data.label, random_state=0)
# Find best Tfidf model using