建设中文词汇语义资源中的一些问题和我们的对策
董振东 董强
中科院计算机语言信息工程研究中心
dzd@keenage.com DongQinag@keenage.com
摘要:知网是一个中英文双语的描写概念与概念之间的关系以及概念的属性与属性之间的
关系的知识系统。自1999 年公布以来,它已在许多方面得到了应用,具有广泛的影响。本
文讨论了在建设知网这一语义资源中所遇到的各种理论上和技术上的问题,以及作者对它们
的考虑和处理。这些问题包括:词汇语义资源的规模、深度、跨语种、词语的选择、意义的
区分和义项的确认、语义描述的策略以及关于意义的计算。
关键词:词汇学;词典学;语义;义原;知网;
Resolutions to Some Problems
in Building Chinese Lexical Semantic Resources
Zhendong Dong Qiang Dong
Research Centre of Computer & Language Engineering Chinese Academy of Sciences
dzd@keenage.com DongQinag@keenage.com
Abstract: HowNet is an on-line common-sense knowledge base unveiling inter-conceptual
relations and inter-attribute relations of concepts as connoting in lexicons of the Chinese and their
English equivalents. It has gained wide application since it was released in 1999. This paper
discusses many issues encountered by the authors in building HowNet and presents the solutions
to them. They are size, depth, cross-language, selection of words and phrases, differentiation of
meanings, semantic representation of words and phrases, and computing of meanings.
Keywords: lexicology; lexicography; semantics; sememe; HowNet;
首先要明确:这里我们讨论的是面向计算机的词汇语义的研究,或是为计算机而建设的词汇
语义资源。本文要介绍的是我们在建设知网中遇到的问题以及我们对这些问题的考虑和处
理。不同的面向有不同的任务、不同的问题。它们可以相互借鉴,但不能相互代替。
1. 关于规模
一个能基本满足实用需求的词汇语义库的规模的最低词汇量是多少?我们根据我们曾经进
行过的机器翻译系统研发的经验,在建设知网之初就确定其规模不可低于5 万词语。一个词
汇语义库如果低于2万词汇,那只能是算一种实验,它既不能满足实用的需要,也不足以证
明它自身的理论基础、方法是否正确和可靠。从2 万到5 万绝不是简单的量的问题,而是质
的问题。
知网知识库的中文词语条目现有7 万,当然实际上不止,在知网中现在还没有把拼音加上,
因此象“花”、“行”、“盛”、“了”、“的”、“重”等在计算时都只算是一个条目。知网知识库
中的中文义项总数为8 万5 千。知网知识库的英文词语条目现有7 万,其对应的义项总数为
8 万6 千。知网知识库的总记录数为14 万3 千。
2. 关于深度
这也是与规模有关的。这里所说的深度指的是概念分类体系的深度、概念描述的深度以及词
语或概念关系的深度。知网中实体类(一般为名词)、属性类(一般为名词)、以及属性值类
(一般为形容词和副词)的分类体系的深度是很浅的,但是其事件类(一般为动词)的分类
体系的深度是很深的。由于知网采用的是义原为基的策略,因此分类体系的深度是由义原间
的关系决定的。知网中的概念描述的深度以及词语或概念关系的深度基本上是以常识为限。
一个重要的原则是注意尽量不要过于深入到某一特定领域的专业知识中去,尽量使之保持平
衡。对于面向计算机的资源,多一些专业性词语,并没有坏处,只是不要凑数,不可太滥。
像有的资源中的很多词语在Google上都查不到,那就不好了。
3. 关于语种
从应用价值看,多语种的词汇语义资源比单一语种的有更多的用途,这是不言而喻的。同时
我们还要指出,从工程实施看,也是跨语言的好于单一语种的,虽然工作量大了不少,对语
言工作者的要求高了不少。我们认为既然这是一种语义资源,它的架构就应该适应各种不同
类型的语言才对。大家知道,知网从一开始就是中英文两种语言同步建设的。从一开始我们
就想要考验知网的架构,要证明它能够适应不同的语言。不然的话,它有可能成为一种自我
封闭的系统,也就很难得到普遍的认可。在我们建设语义资源时,我们不会不去参考某些已
有的资源,包括那些面向人的印刷的资源,但是任何资源都会有它的局限性,完全照搬是不
可能的。多语种相互参照,同时并举是好的。但据我们的经验,这里有一条大忌,应切忌让
一种语言盲目地跟随着另一种语言。
...............................
董振东 董强
中科院计算机语言信息工程研究中心
dzd@keenage.com DongQinag@keenage.com
摘要:知网是一个中英文双语的描写概念与概念之间的关系以及概念的属性与属性之间的
关系的知识系统。自1999 年公布以来,它已在许多方面得到了应用,具有广泛的影响。本
文讨论了在建设知网这一语义资源中所遇到的各种理论上和技术上的问题,以及作者对它们
的考虑和处理。这些问题包括:词汇语义资源的规模、深度、跨语种、词语的选择、意义的
区分和义项的确认、语义描述的策略以及关于意义的计算。
关键词:词汇学;词典学;语义;义原;知网;
Resolutions to Some Problems
in Building Chinese Lexical Semantic Resources
Zhendong Dong Qiang Dong
Research Centre of Computer & Language Engineering Chinese Academy of Sciences
dzd@keenage.com DongQinag@keenage.com
Abstract: HowNet is an on-line common-sense knowledge base unveiling inter-conceptual
relations and inter-attribute relations of concepts as connoting in lexicons of the Chinese and their
English equivalents. It has gained wide application since it was released in 1999. This paper
discusses many issues encountered by the authors in building HowNet and presents the solutions
to them. They are size, depth, cross-language, selection of words and phrases, differentiation of
meanings, semantic representation of words and phrases, and computing of meanings.
Keywords: lexicology; lexicography; semantics; sememe; HowNet;
首先要明确:这里我们讨论的是面向计算机的词汇语义的研究,或是为计算机而建设的词汇
语义资源。本文要介绍的是我们在建设知网中遇到的问题以及我们对这些问题的考虑和处
理。不同的面向有不同的任务、不同的问题。它们可以相互借鉴,但不能相互代替。
1. 关于规模
一个能基本满足实用需求的词汇语义库的规模的最低词汇量是多少?我们根据我们曾经进
行过的机器翻译系统研发的经验,在建设知网之初就确定其规模不可低于5 万词语。一个词
汇语义库如果低于2万词汇,那只能是算一种实验,它既不能满足实用的需要,也不足以证
明它自身的理论基础、方法是否正确和可靠。从2 万到5 万绝不是简单的量的问题,而是质
的问题。
知网知识库的中文词语条目现有7 万,当然实际上不止,在知网中现在还没有把拼音加上,
因此象“花”、“行”、“盛”、“了”、“的”、“重”等在计算时都只算是一个条目。知网知识库
中的中文义项总数为8 万5 千。知网知识库的英文词语条目现有7 万,其对应的义项总数为
8 万6 千。知网知识库的总记录数为14 万3 千。
2. 关于深度
这也是与规模有关的。这里所说的深度指的是概念分类体系的深度、概念描述的深度以及词
语或概念关系的深度。知网中实体类(一般为名词)、属性类(一般为名词)、以及属性值类
(一般为形容词和副词)的分类体系的深度是很浅的,但是其事件类(一般为动词)的分类
体系的深度是很深的。由于知网采用的是义原为基的策略,因此分类体系的深度是由义原间
的关系决定的。知网中的概念描述的深度以及词语或概念关系的深度基本上是以常识为限。
一个重要的原则是注意尽量不要过于深入到某一特定领域的专业知识中去,尽量使之保持平
衡。对于面向计算机的资源,多一些专业性词语,并没有坏处,只是不要凑数,不可太滥。
像有的资源中的很多词语在Google上都查不到,那就不好了。
3. 关于语种
从应用价值看,多语种的词汇语义资源比单一语种的有更多的用途,这是不言而喻的。同时
我们还要指出,从工程实施看,也是跨语言的好于单一语种的,虽然工作量大了不少,对语
言工作者的要求高了不少。我们认为既然这是一种语义资源,它的架构就应该适应各种不同
类型的语言才对。大家知道,知网从一开始就是中英文两种语言同步建设的。从一开始我们
就想要考验知网的架构,要证明它能够适应不同的语言。不然的话,它有可能成为一种自我
封闭的系统,也就很难得到普遍的认可。在我们建设语义资源时,我们不会不去参考某些已
有的资源,包括那些面向人的印刷的资源,但是任何资源都会有它的局限性,完全照搬是不
可能的。多语种相互参照,同时并举是好的。但据我们的经验,这里有一条大忌,应切忌让
一种语言盲目地跟随着另一种语言。
...............................
http://www.keenage.com
http://www..cogsci.princeton.edu/~wn