自然语言词汇形式化:多词单元的定义与分析
1. 词汇单元分类概述
在自然语言的研究中,词汇单元(ALU)的分类具有重要意义。其分类具备两个关键特性:
- 通用性 :所定义的四种 ALU 类别可用于描述所有书面语言中的任何词汇元素。
- 可重复性 :理解该分类的人能够可靠地将任何语言的 ALU 归入这四个类别之一,这意味着不同的语言学家团队可以独立进行数据积累。
然而,区分多词单元和可分析的简单词序列仍是一个待解决的问题。由于没有明确的正字法标准能区分多词单元和简单词序列,且不同的人(如逻辑学家、词源学家、形态学家等)对多词单元的定义差异很大,目前尚无普遍接受的定义。
2. 定义多词单元的标准及益处
2.1 标准的提出
提出了基于三个标准的多词单元定义,该定义对项目有两大益处:
- 可操作性和可重复性 :反对存在可分析序列和固定序列之间连续体的观点,因为它缺乏可操作性。对于语言项目而言,一个词序列要么可通过明确规则完全分析,要么至少有一个属性无法通过这些规则计算。对于后者,需将其编目以进行明确描述。
- 满足自然语言处理(NLP)计算机应用需求 :当前 NLP 应用的许多错误可通过处理 ALU 而非基于简单正字法定义的“单词”来避免。NLP 软件(如拼写检查器、搜索引擎、标签器、自动翻译器等)并非需要计算词序列的所有句法或语义属性,而是计算部分属性,如纠正一致性错误、规范化查询以将术语变体与单一索引键关联、计算名词短语的分布类以消除动词歧义并进行
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



