
自然语言处理
文章平均质量分 71
hehuanlin123
这个作者很懒,什么都没留下…
展开
-
中文分词一些思路的总结
中文分词一些思路的总结 中文分词是中文自然语言处理的第一步,也是最为核心的基础,分词的好坏和准确率直接影响到后续进行的其他处理和分析。常用的中文分词工具包括jieba分词、哈工大分词、Stanford分词等,但是除了会使用这些工具外,掌握相关的模型和思想更为重要。1 Mmseg每次从一个完整的句子里,按照从左向右的顺序,识别出多种不同的3个词组合,然后根据下面的4条消歧规则,确定最佳的原创 2017-03-21 16:50:45 · 1626 阅读 · 0 评论 -
数据科学工程师面试宝典系列---旅游评论数据中的自然语言处理
NLP的工作训练中文分词模型;比如jieba、ncej(java分词);训练中文词性分析模型;名词、形容词、副词、否定词;分词是基础;评论数据的印象提取(情感分析);关键词分析和聚合;基于word2vec的推荐引擎和简易分类器;谷歌的工具,把文本生成词向量;All in Python;中文分词自己训练模型的原因:容易改进,根据效果修正训练集旅游数据的独特原创 2017-03-02 17:17:01 · 613 阅读 · 0 评论