
语言模型
文章平均质量分 81
追梦船
机器学习,自然语言处理方向的小菜鸟
展开
-
SunPinyin代码导读 - 语言模型的训练
0. 综述首先check out输入法项目的代码:$ git clone git://github.com/sunpinyin/sunpinyin.gitsunpinyin的代码包括三个部分,src/slm目录下是统计语言模型的代码(slm: statistical language model),src/ime-core目录下是和输入法相关的接口(ime: input met转载 2014-03-27 16:20:54 · 3757 阅读 · 5 评论 -
语言模型训练工具SRILM详解
SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。关于SRILM的安装,我已经在前面关于moses平台搭建的文章(参见:《Moses相关介绍》和《Ubuntu8.10下moses测试平台搭建全记录》) 中介绍过了,这里就不再重复。准确的说,SRILM并不是因转载 2014-03-29 18:27:41 · 2087 阅读 · 0 评论 -
ngram模型的光滑处理
由于语料不可能覆盖掉所有的情况,比如语料中有“小明读了一本书”, 那么“小李读了一本书”没有在语料中出现按照MLE最大似然估计其概率就是0,这显然是不合常理的。所以我们需要对模型进行光滑处理,就是要分一部分概率给语料中没有出现的部分。问题是如何分配,应该分配多少呢。(下面的课件来自nhu的NLP课程) 这种情况看上去我们分给未知部分的概率太多了24/29 更多的观察更转载 2014-03-27 16:09:39 · 3022 阅读 · 0 评论 -
SRILM语言模型工具
最近学习了一下SRILM的源代码,分享一下学习笔记(最新完整版本),希望能够对大家了解SRI语言模型训练工具有些许帮助。限于本人水平,不足之处,望大家多多指教。笔记的主要内容使用starUML及其逆向工程工具绘制,主要针对SRILM的训练(ngram-count),内含5个jpg文件:类图--与ngram-count相关的主要类的静态图;ngram-count--从语料训练出模型的主要转载 2014-02-19 17:51:33 · 2828 阅读 · 0 评论