
中文分词
半生凉
halfcool-come on
展开
-
自然语言处理与中文分词的难点总结
中文自动分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。中文分词的难点· 未登录词,基于词库的分词方法往往不能识别新词、特定领域的专有词。人名、机构名、地名、产品名、商标名、简称、省略语等都是自动分词的难点。· 切分歧义,使用基于n-gram的切词方法往往不能转载 2014-10-05 21:31:07 · 8141 阅读 · 0 评论 -
开源中文分词FudanNLP
推荐FudanNLP,这是一个复旦大学计算机学院开发的开源中文自然语言处理(NLP)工具包Fudan NLP里包含中文分词、关键词抽取、命名实体识别、词性标注、时间词抽取、语法分析等功能,对搜索引擎、文本分析等极为有价值。开源项目地址为:http://code.google.com/p/fudannlp/ DEMO地址为:http://jkx.f转载 2014-10-05 21:33:05 · 941 阅读 · 0 评论 -
NLP常用工具
各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP Toolbox CLT http://complingone.georgetown.edu/~linguist/compling.html GATE http://gate.ac.uk/ Natural La转载 2014-10-05 21:36:12 · 612 阅读 · 0 评论 -
分词中的HMM
1. 首先来说一下马尔科夫链。 一个事件序列发生的概率可以用下面的概率论里面的乘法公式展开 P(w1,w2,…wn) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1) 乘法公式的证明非常有意思,它本身就是一个递推的过程, 根据条件概率的定义:P(A|B) = P(AB)/ P(B)转载 2014-10-05 21:39:56 · 657 阅读 · 0 评论 -
中文分词词典构造简述
中文分词词典构造简述在分词系统中常用的分词词典机制有:(1)基于整词二分;(2)基于TRIE索引树;(3)基于逐字二分.一、基于整词二分的分词词典机制这是一种广为使用的分词词典机制.其结构通常分为三级,前两级为索引,如图3.1听示。图 3.1 基于整词二分的分词词典机制 1.首字散列表词首字散列函数根据汉字的国标区位码给出。通过一次Hash运算即转载 2014-10-05 21:49:58 · 4435 阅读 · 0 评论 -
二元语法模型与viterbi算法分词
注意:本篇博文标红字部分为一处笔误的改正。非常感谢猎兔网 开发工程师 罗刚指出错误。欢迎大家光临我的博客指正各种思维不周,本人不拒绝严格的批评,只要能指出具体错误,和改进方案采用这种方法首先要弄懂1.什么是二元语法模型:二元语法模型也就是一阶马尔科夫链,更通俗的说法是:一个词出现与否,仅有它前面一个词有关。举个例子:P(成|结合)*P(结合)>P(合成|结) *P(结)表示 “转载 2014-10-08 11:34:53 · 10902 阅读 · 0 评论 -
中文分词:之Trie树
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有两种:一种正向转载 2014-10-05 21:10:00 · 908 阅读 · 0 评论 -
自然语言处理--中文分词之机械分词
说到自然语言处理,对于中文首当其冲的就是分词。 和西方语言不同,中文句子中不像英语,每个单词间有空格隔开,而是全部连在一起,词间没有明显的界限。这就为我们的翻译、检索等等更高级的信息处理带来了不小的麻烦,怎样将一句话中的关键词提取出来,便成为了中文信息处理首先要解决的问题,这就是我们所谓的分词。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和转载 2014-10-05 21:25:19 · 3450 阅读 · 0 评论