有的网友问,中国有没有值得称道的用于自然语言处理的词汇研究成果?
我的回答是:当然有。我个人认为,这些成果中最值得称道的是董振东老师开发的“知网”(HowNet),有兴趣的读者可以到知网的网站访问。我这里就不介绍了。
今天,我要向网友们介绍另一个值得称道的研究成果--没有正式职业的自由研究人张潮生的中文词语库CWB (Chinese Word Base, 暂名)。
中文词语库CWB系统的核心是一个规模较大的中文词库。该词库目前收入了 13万以上的书面形式的词条,包括单词、固定词组、成语、一定比例的专名、少量在中文文章中较常见的英文缩写或含有字母的词语, 等等。每个词条通过关系比较密切的相关词 (例如同义词、反义词、上位词、下位词等) 与其它词条相连结。整个词库呈现为比较复杂的网络结构, 并带有多种检索手段和显示方式。
该词库包含大量的同义、分类等语义信息, 可用作中文的同义词典、反义词典、分类词典或者某种资料信息库, 也是一种知识本体, 有类似著名英文词库 WordNet 的用途。它可用于搜索引擎、全文检索等检索工具中, 帮助用户选择关键词、帮助系统提供相关搜索词或进行其它智能处理, 例如语义搜索、精准匹配等。也可用于字处理、写作助理等办公软件中, 丰富的相关词能为写作中的词语优化提供较有力的支持。还可作为自然语言处理的资源或汉语教学的辅助工具。该词库已在有些企业和科研机构中得到应用。
CWB中义项与词长的分布如下:
义项分布:
义项数 词数 百分比
1 74635 81.38
2 12911 14.08
3 2671 2.91
4 766 0.84
5 301 0.33
6 183 0.20
7 86 0.09
8 56 0.06
9 30 0.03
10 25 0.03
11 9 0.01
12 10 0.01
13 8 0.01
14 5 0.01
15 7 0.01
16 3
17 2
18 1
21 1
23 2
24 1
义项总数 116396, 词条总数 91713, 平均义项数 1.27
词长分布:
词长 词数 百分比
1 4424 4.82
2 58675 63.98
3 13835 15.09
4 11913 12.99
5 1373 1.50
6 594 0.65
7 420 0.46
8 129 0.14
9 251 0.27
10 29 0.03
11 49 0.05
12 9 0.01
13 9 0.01
15 2
16 1
平均词长 2.49。
在CWB中单词间的关系主要有:
1. 同义关系。指两个或更多的词意思相同或接近。例如:
电脑-电子计算机
甘薯-白薯 红薯 红苕 番薯 山芋 香薯 地瓜 山药 芋头 苕 山药蛋
目前同义关系涉及一半以上的词或义项。CWB对同义的要求一般比有的工具书严格些。其它工具书中的一些同义词, 可能因意义有差别而在该系统中被处理为上下位等。
CWB将一些最密切的同义词排在一起。例如在同义词集“功夫 工夫 闲暇…”中, 认为“功夫”和“工夫”最密切。于是当“功夫”作为主词时, “工夫”总是出现为第一个同义词; 当“闲暇”等是主词时, “功夫”和“工夫”总是在其同义词中紧挨着。所谓最密切的同义, 指内涵、非理性意义 (或附加意义) 等都相同, 基本对应一些教科书中的“完全同义”。
但CWB采取更宽松的标准,它们包括通常所说的异形词, 但还有若干其它类型, 目前涉及 5400 以上的词或义项。
CWB的同义词还包括:
-- 异形词;
-- 全称与简称、缩略语;
-- 术语与俗称;
-- 现代叫法和旧称、古称;
-- 普通话和某些方言词;
-- 不统一的译名;
-- 敬辞、谦辞;
…等等。
下面是一些有代表性的例子:
奥运会-奥林匹克运动会
天翻地覆-地覆天翻
成年累月-整年累月
伊妹儿-依妹儿
防患未然-防患于未然
拉大旗作虎皮-拉大旗,作虎皮
2. 上位(是一种)-下位(分成类型)关系。是较狭义的上下位。例如:
打-梆 抽 抽打 打 打击 夯 擂 拍打 扑打 敲
打-碰撞
正方形-矩形 菱形 正多边形
“打”可以划分成“梆”、“打”、“敲”等类型, 且“打”是一种“碰撞”。
您可能会纳闷: “打”的相关词中还有“打”, 难道它能以自身为相关词吗? 您只
要双击一下第二个“打”就可以看出, 它是表示惩罚的“打”, 与第一个“打”义
项不同。偶尔一个相关词也会出现不只一次, 这也不是因系统有问题, 而是相关词
对应不同的义项。
上位和下位通常是互逆的。如果 A 是一种 B, 则 B 可分成 A 等类型。上位
中也可包含不止一个词。CWB不回避多个上位。上位关系便于今后实现继承。目前大约 1/4 的词或义项带有多个上位。今后还会更多些。
可能有人会问: “打”就只有这些类型吗? 可以想象打石头、用锤子打等类型,为何不将它们都列举出来? 这里应该分辨两种情况。第一种是, CWB一般不收明显不像词的、较自由的词组, 单音节词中一般也不含不单独成词的语素。如果汉语中没有专门的词表示“打石头”, 该词库就没有列出它, 否则还可以类推出“打木头”、“打地面”等, 根本无法穷尽。即使是词, CWB也不可能什么词都收。另一种情况是, “用锤子打”在汉语中可用动词“锤”表示, 但“锤”是一种“敲”, 因此与“打”只有间接的关系。
上下位关系构成庞大的等级体系。越在下面的词就越专指, 也即外延就越小。
下面是从这种等级中抽取的片段:
信徒-教徒-佛教徒-僧尼-和尚-高僧
几何图形-多边形-三角形-等腰三角形-等边三角形
动物-脊索动物-脊椎动物-哺乳动物-马-骏马-千里马
事情-活动-文体-运动-田径运动-田径赛-径赛-长跑-马拉松
数量-物理量-标量-面积-地积
反应-答理-理茬-回答-答复-回电
玩耍-游玩-游览-郊游-春游-踏春-踏青
正确-合理-公平-公正-正直-刚直
不满-生气-气不忿-抱不平-打抱不平-拔刀相助
无法-力不从心-眼高手低-志大才疏
事与愿违-适得其反-弄巧成拙-聪明反被聪明误-机关算尽太聪明,反误了卿
卿性命
3. 整体(构成)-部分(由…构成)关系。例如:
手-虎口 手背 手掌 手指
键盘-键
在CWB中它们不限于物体、空间, 可以存在于时间、过程等中。有时它们也与上下位一样构成较深的等级, 例如:
宇宙-总星系-银河系-太阳系-地球-东半球-亚洲-中国-海南-南沙群岛-曾母暗沙
4. 集合(是…之一)-元素(包含)关系。例如:
五岳-泰山 华山 嵩山 恒山 衡山
孔孟-孔子 孟子
师生-教师学生
它们中有的与整体-部分比较接近, 但是一般不如整体-部分紧密。
张潮生对于CWB的评价:“由于理论问题的困扰, 尚未渐入佳境。作者还在不断修改该词库, 深感才疏学浅, 勉为其难, 决不敢掉以轻心或自鸣得意。岂能尽如人意, 但求无愧我心。在这个理论空白点尚多、数据庞杂多变、且还要做出比较精密的软件的领域, 努力追求、逼近完善是长期的任务, 无法一蹴而就。这一点是这种事情的性质所决定的, 不是一般谦虚的话。夸大的宣传只会误导用户和读者。语义学和知识库的一些问题也许还需要若干代人或更长时间的努力才可能解决。计算机获取和表示人类知识还任重而道远。语义词库所涵盖的知识还相当有限。对这些应有清醒的认识。目前自然语言处理中的各种方法和资源都有其局限性, 本系统当然也是如此。”
张潮生的CWB是没有任何资金支持的情况下开发出来的,他的研究精神值得我们学习。他立志献身科学,而不求个人的名利,并且表示,如果冯老师的学生在研究工作中需要CWB,他可以给予帮助。事实上,他已经无报酬地给我的学生很多的帮助。
张潮生现在广东潮州,是一位没有固定工作和收入的自由研究人员。
他的联系方式: