
NLP
ShenYounger
这个作者很懒,什么都没留下…
展开
-
TF-IDF在关键词自动提取、计算文本相似度和摘要自动生成上的应用
此博文虽然标记为原创,实际上市从原创 2014-09-09 18:04:07 · 4479 阅读 · 0 评论 -
自然语言处理中的一些问题
说来惭愧得很,在NLP中这两个术语我老是忘记。在这里记录一下。词干还原为Ste原创 2014-08-18 01:20:24 · 1183 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个转载 2015-11-06 23:06:39 · 526 阅读 · 0 评论 -
同学论文投递的那些会议
1.同学小霍投递的是www会议。International World Wide Web Conference,每年召开一次。是计算机的顶级学术会议2.同学小胡投递的是中文信息学会2015学术年会。每年一次。转载 2015-11-06 23:25:01 · 509 阅读 · 0 评论 -
国内NLP的那些人那些会
统计学和语言学专家都列在一起了,没有区分。1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。中国计算机自然语言处理领域的”趟路人”和集大成者。2,孙茂松,清华大学计算机科学与技术系系主任,教授,博士生导师。研究方转载 2015-11-06 22:54:29 · 18224 阅读 · 0 评论 -
NLP的派别
主要由两派。一派是基于规则的理性主义,一派是基于统计的经验主义。转载 2015-11-06 23:09:32 · 706 阅读 · 0 评论 -
关于分词的一些解惑
1.目前用CRF做分词,一般分词效果是最好的,而且对于未登录词的识别也较为有效.。但为什么很多商业搜索引擎还是用基于词典的方法来做呢。是因为人力成本,还是 其他方面的考量?Ans:学术界用CRF多,工业界几乎没有使用CRF。解决不了分词一致性的问题。2. 所说的分词一致性指的是同一个短文本,上下文发生了变化,切出来的词 就不一样了? 是么?Ans:对的。CRF的上下文太强了。在搜索这原创 2015-12-30 23:00:15 · 606 阅读 · 0 评论