计算所汉语词法分析系统ICTCLAS 字典格式解析

本文围绕小叮咚分词模块展开,其分词功能拓展遇瓶颈。作者将小叮咚定位为智能知识问答系统,分词是关键一步。作者准备参考ICTCLAS系统,该系统功能强大但缺文档。文章重点分析ICTCLAS词库格式,作者实现的解析ictclas4j可在eclipse运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

计算所汉语词法分析系统ICTCLAS 字典格式解析

这段时间小叮咚分词模块基本上没有什么大更新了,不是不想更新,而是感觉好像碰到了天花板,不知道该如何进一步拓展分词的功能了。当然分词不是目的,只是为了让小叮咚理解自然语言的一步必须的中间环节。我对小叮咚的定位是一个智能知识问答系统。这样让小叮咚理解用户输入的内容是最基础也最关键的一步。我们学习一门语言,首先要了解句子的构成,句子的成份,主、谓、宾、定、状、补等等。让机器理解人的语言,也应该采取大致的步骤。

分词很显然是第一步。在我看来分词有两个层次:
1、把一句话中的词语按照其所代表的含义分开;(搜索引擎的分词到这一步基本就可以了)
2、对第一个环节分词结果加上词性标注;(动词,名词,等等)

小叮咚的分词程序现在只是基本完成了上面的第一个部分。
要做完第2部分非常困难,首先需要一个分词词性词库,其次需要一个好的算法来标注词性。

这大概就是小叮咚的分词程序一直无法提高的原因吧。
于是就准备参考国内有名的
计算所汉语词法分析系统ICTCLAS, 先看看人家是如何实现的。

汉语词法分词系统 ICTCLAS 是中国科学院的两位研究员开发的一套广受专家好评的汉语分词系统。该系统的功能有:中文分词;词性标注;未登录词识别。详细信息可以看这里。由于对方提供了源代码,所以分析ICTCLAS是个很好的起点。(现在ICTCLAS提供了 windows linux 下的动态链接库,还没有 java C# 版本的,我想如果顺利的话这个系列的文章写完,就应该可以实现C#java版本的了,呵呵)
当然在好的东西也有缺点,在我看来ICTCLAS最大的缺点是没有文档。就像JBOSS,代码虽然免费,可是没有文档,很多人只好乖乖的交服务费或者购买文档了。这也算是一种盈利模式吧,给作者的劳动一些补偿。

分词的两个重点分别是一个好的词库和一套好的分词算法。ICTCLAS 无疑在这两方面都是很出色的。
本篇重点分析一下ICTCLAS所采用的词库的格式。
ICTCLAS 使用的词库是以dct结尾的文件。

我实现的解析ictclas4j。可直接导入eclipse运行。
词库:这里有一个例子

今天就先写到这里吧,没有写过文件格式方面的文章,不知道该怎么描述了...
田春峰
20041223

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值