
自然语言处理
文章平均质量分 79
niuox
这个作者很懒,什么都没留下…
展开
-
中文分词算法之最大正向匹配算法(Python版)
最大匹配算法是自然语言处理中的中文匹配算法中最基础的算法,分为正向和逆向,原理都是一样的。正向最大匹配算法,故名思意,从左向右扫描寻找词的最大匹配。首先我们可以规定一个词的最大长度,每次扫描的时候寻找当前开始的这个长度的词来和字典中的词匹配,如果没有找到,就缩短长度继续寻找,直到找到或者成为单字。实例:S1="计算语言学课程是三个课时" ,设定最大词长MaxLen = 5 ,S2原创 2013-09-06 17:33:18 · 14173 阅读 · 3 评论 -
计词unigram和bigram的频次
在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.我们来简单的做个练习:输入的是断好词的文本,每个句子一行。统计词unigram和bigram的频次原创 2013-09-08 20:50:57 · 24401 阅读 · 3 评论