词性标注:从基础到高级网络架构
1. 基于逻辑回归的词性标注分类器应用
在进行词性标注时,当我们有了训练特征 X_train 和词性标签 y_train_cat 后,就可以训练一个分类器。这里使用 scikit-learn 中的 linear_model 模块的逻辑回归及其 fit() 函数进行训练:
from sklearn import linear_model
classifier = linear_model.LogisticRegression()
model = classifier.fit(X_train, y_train_cat)
为了对句子进行词性预测,我们编写了 predict_sentence() 函数,它使用 DictVectorizer 的 transform() 函数对特征进行编码,并使用 predict() 函数应用分类器,最后将预测的词性标签存储在数据集字典的 PPOS 键中:
def predict_sentence(sentence,
model,
dict_vectorizer,
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



