NLP的工作
训练中文分词模型;比如jieba、ncej(java分词);
训练中文词性分析模型;名词、形容词、副词、否定词;分词是基础;
评论数据的印象提取(情感分析);关键词分析和聚合;
基于word2vec的推荐引擎和简易分类器;谷歌的工具,把文本生成词向量;
All in Python;
中文分词
自己训练模型的原因:
容易改进,根据效果修正训练集
旅游数据的独特性,可以专门针对旅游文本的特点加以训练风景,人文,地理,美食
自定义分词的粒度,盐焗/大虾 东方/明珠 上海/体育场
在实践中学习
机器学习的思想:利用已经分好词的文本训练模型,然后输入一句话进行分词测试;自己的训练集有限;
原理:
将标注问题,转化为分类问题。任何一个单独的字都可以分为四类:词首、词中、词尾、单字。
考虑字的上下文关系,扩展特征。
使用CRF算法,得到最终分类器。(条件随机场,包含最大熵和隐码的特点)
例子:
这 是 人类 有史以来 预报 &