44、词性标注:从基础到高级网络架构

词性标注:从基础到高级网络架构

1. 基于逻辑回归的词性标注分类器应用

在进行词性标注时,当我们有了训练特征 X_train 和词性标签 y_train_cat 后,就可以训练一个分类器。这里使用 scikit-learn 中的 linear_model 模块的逻辑回归及其 fit() 函数进行训练:

from sklearn import linear_model 
classifier = linear_model.LogisticRegression() 
model = classifier.fit(X_train, y_train_cat)

为了对句子进行词性预测,我们编写了 predict_sentence() 函数,它使用 DictVectorizer transform() 函数对特征进行编码,并使用 predict() 函数应用分类器,最后将预测的词性标签存储在数据集字典的 PPOS 键中:

def predict_sentence(sentence, 
                     model, 
                     dict_vectorizer, 
        
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值