下载了盘古分词工具,学习工具使用的同时学习中文分词基础。
1. 一元分词/二元分词/多元分词/精确分词
一元分词是按字拆分的,比如一句话“梦想很丰满”,在盘古分词中使用一元分词拆分的结果是:梦/梦想/想/很/美/美满/满/。
二元分词按双字形式输出。比如一句话“梦想很丰满”,使用二元分词拆分的结果是:“梦想”,“想很”,“很丰”,“丰满“。
多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。
“梦想很丰满”,在盘古分词中使用冗余度为1的多元分词拆分的结果是:梦想/很/美/美满/。
精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。如以上例句使用精确分词的结果是:梦想/很/美满/
精确分词是一般意义上分词算法追求的目标。
多元分词对搜索引擎有重要意义,因为多元分词增加了冗余,所以和搜索引擎结合可以得到较多的匹配结果(相对精确分词而言)。
以下链接文字说明了盘古分词中的多元分词的原理:
http://www.cnblogs.com/eaglet/archive/2008/10/02/1303142.html
2. 中文人名识别
以下链接是盘古分词中中文人名识别算法原理(包含如何消除歧义):
http://www.cnblogs.com/eaglet/archive/2009/08/19/1549566.html
人名词典是ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt,但没有看到姓氏的词典?
3. 中文未登词识别
4 盘古的词典管理工具
包含了词名,词性,词频信息。
5. 扩展思考
如果让盘古分词支持地名,商品名称,该如果进行?只要将这些名称加入词库就可以了吗?
后续需要查阅中文人名,地名,组织名识别的相关论文。
其他分词工具:基于Python的结巴分词