自然语言词汇的形式化定义
在自然语言处理中,准确地定义词汇元素是一项重要且复杂的任务。下面我们来探讨如何对词汇进行形式化定义,区分多词单元和可分析的简单词序列。
1. 词汇分类的特性
词汇分类具有两个重要特性:
- 通用性 :定义的四种词汇单元(ALU)类别可用于描述所有书面语言中的任何词汇元素。
- 可重复性 :理解这种分类的人能够可靠地将任何语言的任何ALU归入四个类别之一,这意味着不同的语言学家团队可以独立进行数据积累。
2. 多词单元与可分析的简单词序列
区分多词单元和可分析的简单词序列并非易事,因为没有明确的正字法标准可以做到这一点。大多数复合名词具有常见的结构,如形容词 + 名词(如“white wine”)、名词 + 名词(如“flight simulator”)、动词 + 名词(如“washing - machine”)或介词 + 名词(如“in - law”)。
然而,对于许多词的组合,情况并不清晰。不同的专业人士(逻辑学家、词源学家、形态学家等)对多词单元的定义差异很大,目前还没有普遍接受的定义。下面基于三个标准来定义多词单元,这将为相关项目带来两个好处:
- 可操作性和可重复性 :反对存在可分析序列和固定序列之间的连续体这一观点,因为它不具有可操作性。对于语言项目而言,一个词序列要么可以通过明确的规则完全分析,要么至少有一个属性无法通过这些规则计算得出。在后一种情况下,它不是完全可分析的,因此必须进行编目以便明确描述。
- 满足大多数自然语言处理
超级会员免费看
订阅专栏 解锁全文
1055

被折叠的 条评论
为什么被折叠?



