数据科学工程师面试宝典系列---旅游评论数据中的自然语言处理

NLP的工作

训练中文分词模型;比如jieba、ncej(java分词);

训练中文词性分析模型;名词、形容词、副词、否定词;分词是基础;

评论数据的印象提取(情感分析);关键词分析和聚合;

基于word2vec的推荐引擎和简易分类器;谷歌的工具,把文本生成词向量;

All in Python;


中文分词

自己训练模型的原因:

容易改进,根据效果修正训练集

旅游数据的独特性,可以专门针对旅游文本的特点加以训练风景,人文,地理,美食

自定义分词的粒度,盐焗/大虾  东方/明珠  上海/体育场

在实践中学习

机器学习的思想:利用已经分好词的文本训练模型,然后输入一句话进行分词测试;自己的训练集有限;

原理:

将标注问题,转化为分类问题。任何一个单独的字都可以分为四类:词首、词中、词尾、单字。

考虑字的上下文关系,扩展特征。

使用CRF算法,得到最终分类器。(条件随机场,包含最大熵和隐码的特点)

例子:

这  是  人类  有史以来  预报 &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值