自然语言处理中的本体构建与文本分类技术
自然语言与知识表示语言
自然语言并不适合作为知识表示语言。尽管构建本体时必须依赖自然语言(通常是构建者的母语),但有必要将其形式化,即将自然语言的概念转换为形式化符号,并在两者之间建立映射关系。
俄罗斯学者图佐夫(Tuzov V.A.)设计的语义元语言是物理符号和俄语词汇的组合。它具有以下特点:
1. 是一种与自然语言等价的抽象语言,语义完全形式化,只有计算机能够使用这种语言进行交流,与任何自然语言没有直接联系。
2. 是一种形式化的计算机语言,文本意义可以表示为计算机能够理解的形式。
鲁巴什金(Rubashkin)和拉胡蒂(Lahuti)建立了一个概念词典,采用逻辑语言作为形式表示语言。他们认为只有逻辑语言才能全面、有序且形式化地描述词语之间的意义关系,但这种观点过于绝对。逻辑语言并非唯一适合语义表达的形式语言,自然语言文本中的一些元素无法在逻辑表达式中存在,或者没有等价的单元,但这些元素对于正确建立句子的语义表达是必要的。
马尔蒂诺夫(Martynov)自20世纪70年代以来一直致力于面向计算机的通用语义代码(УCК)的研究,并在2001年提出了УCК - 6。УCК - 6使用X、Y、Z、W作为原始/概念原语,X是主体,Y是工具,Z是对象,W是结果。例如,((XY)Z) ((ZW)Y) 表示X通过Y作用于Z,创造出W,即X创造了W,实际上它是 ((X ! Y) ! Z) ! ((Z ! W) ! Y) 的缩写。
语言本体的构建方法
许多研究人员根据实践经验总结了构建语言本体的方法。鲁巴什金和拉胡蒂指出,构建概念词典需要解决以下基本理论和方法问题:
超级会员免费看
订阅专栏 解锁全文
921

被折叠的 条评论
为什么被折叠?



