高级自然语言处理与机器学习工作流扩展
1. 高级NLP示例:电影评论情感分析
在前面的建模实验中,我们使用基本算法和少量代码,仅基于自然语言数据就构建了一个准确率相当不错的模型。接下来,我们将进一步进行特征工程和建模工作,并探讨将此类模型部署到实际生产系统的各个方面。
1.1 高级算法与模型部署考虑
之前,我们使用相对简单的特征和机器学习算法构建模型,这些模型的准确率可能已满足需求。不过,我们可以尝试优化模型,但要权衡投入的时间和模型准确率提升带来的潜在价值。有时候,将一个准确率稍低的模型投入生产并获取实时反馈,可能更有价值。
接下来,我们将尝试进一步优化模型。首先,使用由谷歌开发的自然语言建模技术——word2vec生成特征,提取特征后,将采用随机森林算法以更好地支持新特征。
1.1.1 Word2vec特征
Google推出的word2vec项目是自然语言处理的一种新方法。word2vec模型是基于深度神经网络构建的机器学习模型,在自然语言、语音和图像等与人相关的领域取得了领先成果。
要在训练集上构建word2vec模型,我们将使用Python的Gensim NLP库,它内置了出色的word2vec实现。在使用Gensim时,需要对文档进行额外处理,因为其算法处理的是句子(已拆分的单词列表)而非任意文档。以下是构建简单分词函数的代码,该函数可去除停用词和标点符号,并将所有单词转换为小写:
import re, string
stop_words = set(['all', "she'll", "don't",
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



