
自然语言处理技术
文章平均质量分 89
ccnunlp
这个作者很懒,什么都没留下…
展开
-
【分词】正向最大匹配中文分词算法
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种...原创 2010-05-15 16:02:21 · 353 阅读 · 0 评论 -
【文本分类】 概述
部分转载: http://www.blogjava.net/zhenandaci/archive/2008/05/31/204646.html作者:Jasper 文本分类(text categorization) 问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇...原创 2010-09-17 12:16:48 · 375 阅读 · 0 评论 -
【文本分类】文本表示 --- VSM
要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。 目前文本表示通常采用向量空间模型(vector space model, VSM)。VSM是20世纪60年代末期由G. Salton等人提出的,是当前自然语言处理中常用的主流模型。 下面首先给出VSM设计的基本概念...原创 2010-09-17 14:22:55 · 1138 阅读 · 0 评论 -
【文本分类】 特征抽取之信息增益
全文装载:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html作者:Jasper (from BlogJava) 在前面的《文本分类概述》文章中,我们讲到了基于统计学习的方法进行分类的关键在于对训练集语料的特征选择的好坏。那么训练集中哪些词可以作为特征,哪些词则不能呢?我们必须对训练...原创 2010-09-19 16:12:58 · 1172 阅读 · 0 评论 -
【文本分类】 特征抽取之χ2统计量
全文转载:http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html作者:Jasper 大家应该还记得,开方检验(χ2,又称Chi-square)其实是数理统计中一种常用的检验两个变量独立性的方法。开方检验最基本的思想就是通过观察实际值与理论值的...原创 2010-09-24 19:44:14 · 553 阅读 · 0 评论