
自然语言处理
文章平均质量分 74
火贪三刀
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NLPIR分词之N-最短路径
N-最短路径是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。根据算法思想,当我们拿到一个字串后,原创 2016-05-24 22:10:54 · 8365 阅读 · 0 评论 -
[推荐]NLP Coursera课程by大牛Michael Collins
Michael Collins教授主页: http://www.cs.columbia.edu/~mcollins/ Michael Collins教授NLP已更新的讲义下载(已打包): http://download.youkuaiyun.com/detail/shijing_0214/9503915 Michael Collins教授Coursera课程: https://class.course原创 2016-04-27 10:54:00 · 11355 阅读 · 0 评论 -
使用sklearn实现朴素贝叶斯文本分类
本文使用的python版本为3.4。 使用前需要安装numpy、matplotlib、scipy和scikitlearn,建议直接下载后安装,下载地址为:python包,选择相应的版本下载,注意不要使用最新的python3.5版本,其对scipy的兼容性不稳定,安装容易失败。 此外还用到了结巴分词、joblib等python包,可以直接通过pip安装。本文源代码及文本数据集下载地址:https:原创 2016-07-20 22:23:15 · 7033 阅读 · 4 评论 -
字符串相似性的几种度量方法
无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下,仅供参考,欢迎大家补充指正。1、余弦相似性(cosine similarity) 余弦相似性大家都非常熟悉,它是定义在向量空间模型(VSM)中的。它的原创 2016-11-09 21:58:57 · 39382 阅读 · 3 评论 -
用户评论标签的抽取
无意中在知乎中看到一个问题:淘宝的评论归纳是如何做到的? 了解之后觉得较为容易实现,就简单实现了一个对用户评论的标签抽取功能,纯属兴趣所致,所以并没有做十分细致的工作,例如词向量仅用不到3M的评论语料进行训练,词典也是随便找了一些词构建的,代码见CommentsMining。 首先来看下评论标签抽取是做什么的,如图: 我们希望在给出下面的评论语料里,自动抽取出上面矩形框中大家一致认同原创 2017-04-30 22:20:52 · 19399 阅读 · 4 评论 -
用户查询意图检测(CIKM Competition数据挖掘竞赛夺冠算法陈运文)
原文出处背景\color{blue}{背景}CIKM Cup(或者称为CIKM Competition)是ACM CIKM举办的国际数据挖掘竞赛的名称。CIKM全称是International Conference on Information and Knowledge Management,属于信息检索和数据挖掘领域的国际著名学术会议,由ACM SIGIR分会(ACM Special Inter转载 2017-05-02 13:57:22 · 7591 阅读 · 6 评论 -
如何来做用户意图识别
什么是用户意图识别?就是让搜索引擎能够识别出与用户输入的查询最相关的信息,例如用户输入查询“仙剑奇侠传”时,我们知道“仙剑奇侠传”既有游戏又有电视剧还有新闻、图片等等,如果我们通过用户意图识别发现该用户是想看“仙剑奇侠传”电视剧的,那我们直接把电视剧作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升使用体验。通用搜索和垂直搜索 通用搜索是抓取互联网上的页面,以索引和关键字匹配的原创 2017-05-06 12:11:51 · 24128 阅读 · 2 评论 -
序列模型中的注意力机制
现在很多研究的NLP问题都可以转换成一个Sequence to Sequence模型来解决,比如说机器翻译,智能问答,语音识别等。 Sequence to Sequence模型由一个encoder和一个decoder组成,encoder完成编码工作,将不同的输入编码成一个定长的向量,decoder则完成解码工作,对编码器的结果进行解码输出,例如在中英文翻译中,首先编码器将中文编码成一个向量表示,接原创 2017-07-15 23:43:48 · 17208 阅读 · 2 评论