文本挖掘
liema2000
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
互信息 Mutual Information
互信息(Mutual Information)在统计语言模型中被广泛采用。如果用A表示包含词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但是不包含t的文档频数,N表示语料中文档总数,t和c的互信息可由下式计算:MI(t,c) = log2{(A*N)/(A+B)*(A+C)}原创 2012-04-14 21:11:31 · 1198 阅读 · 0 评论 -
分词算法整理
分词1.基于词典基于词典的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及翻译 2012-04-14 21:20:13 · 2385 阅读 · 0 评论
分享