
NLP
文章平均质量分 64
fancyerII
这个作者很懒,什么都没留下…
展开
-
知识 vs 学习
今天下午师兄做报告,讲了知识(knowledge),怎么用NLP帮助构建领域知识。 一般解决问题是都有两种思路:知识的和数据驱动的。 一般的看法是,知识就是规则,通过专家建立起复杂的规则系统,然后解决问题就是根据规则进行判定。这其实就是一个确定性的模型。而数据驱动则是根据数据学习出规则来。学习出来的规则可能是显式的,比如决策树学习出来就是显式的规则(如果属性1=xxx a原创 2009-01-13 16:30:00 · 641 阅读 · 0 评论 -
中文分词
中文分词是很多NLP和IR任务的一个必要且重要的步骤。不过什么是“词”,现在还是存在争论的。拿sighan2005的两个分词标准——北大计算语言所的标注和 Penn Treebank(CTB)来说,他们就有很多差异。链接为http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdfhttp://www.cis.upenn.原创 2009-02-12 23:03:00 · 1546 阅读 · 0 评论 -
Stanford的Chinese Segmenter
测试了一下它的速度,比中科院的ictclas4j快不少,测试了100个文件。忘了统计字符数了,懒得弄了,反正比较相对速度。ictclas4j为:10-best 239s 1-best 99s而Stanford的61s当然两个工具包都没有计算加载时间。ictclas4j的加载时间很短,只要加载字典就可以了。而Stanford的模型就有200多M,加载比较慢一点,对内存要求比原创 2009-02-15 22:53:00 · 2293 阅读 · 1 评论 -
LingPipe学习: Spelling Correction(1)
LingPipe Spell Correction Spell Suggestion Natural Language Processing原创 2011-04-10 21:34:00 · 7020 阅读 · 4 评论