
分词相关
文章平均质量分 94
吕秀才
静下心来,每一步都踏踏实实。
展开
-
中文分词与马尔科夫模型之二(隐马尔科夫模型与维特比)
前面一篇博客讲到了中文分词的机械分词算法,这种算法实现相对比较简单,但是分词效果还是有待商榷。比如下面这样一句话:产量三年中将增长两倍。按照机械分词的算法,它可能会被分成这样一种形式:产量| 三年 | 中将 | 增长 | 两倍。机械分词将‘中将’分成了一个词,的确‘中将’在词典中是有这么一个词,但在这句话中将它们划分成一个词显然是不合理的,于是一种新的方法就被提出来了- 基于隐马尔科夫模型的维特比转载 2012-07-12 08:56:50 · 2767 阅读 · 0 评论 -
DAT的算法原理及实现
一、从Trie说起 DAT是Double Array Trie的缩写,说到DAT就必须先说一下trie是什么。Trie树是哈希树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,trie中文叫做键树,也叫字典树,从名字就可以看出trie的实质是一个树。trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。基本性质:1...原创 2019-09-19 16:54:13 · 3277 阅读 · 0 评论