
nlp 信息检索
chenglansky
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
stanford parser使用工具
2.如果要String[] sent从文本输入: eclipse > run > run configuration > arguments > program arguments: 输入: edu/stanford/nlp/models/lexparser/englishPCFG.ser.gzC:\Users\minglan\Desktop\test2.txt test2.tx原创 2015-05-11 19:28:26 · 522 阅读 · 0 评论 -
数学之美 七 信息论在信息处理中的应用
摘要 信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。 先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何转载 2015-05-15 10:25:50 · 652 阅读 · 0 评论 -
网络挖掘技术——微博文本特征提取
http://dichild.com/?p=173转载来源 文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过转载 2015-05-26 10:33:16 · 3647 阅读 · 0 评论