自然语言形式化中的电子词典构建
在自然语言处理(NLP)领域,电子词典的构建是实现语言形式化的关键环节。它对于准确理解和处理自然语言至关重要,能够为NLP应用提供丰富的词汇信息和语义支持。
现有电子词典概述
目前,存在多种不同的电子词典,各有其特点和用途。英语的DELAS词典包含超过150,000个词条,而DELAC词典约有60,000个词条。此外,还有Dubois和Dubois - Charlier编写的法语电子词典,包括《电子词汇词典》(Dictionnaire électronique des mots,DEM)和《法语动词词典》(Les verbes français,LVF)。
这两部法语词典虽然仅针对法语,但代表了迄今为止对语言词汇进行形式化的最佳尝试。它们具有以下重要特点:
- 每个词条对应且仅对应一个词汇元素(ALU)。如果一个词有多个含义,每个含义都由不同的词条表示。
- 每个词条都关联了一组形态属性(屈折和派生)、句法属性(补语特征)和语义属性(语义类别和领域)。
DEM词典
DEM词典包含145,135个词条,每个词条与以下七个属性相关联:
| 属性 | 说明 | 示例 |
| ---- | ---- | ---- |
| CAT | 句法类别,如副词、动词等,也表示名词和形容词的分布情况,还可能有双重值 | “masculine, human noun”;artist [artist/artistic] 兼具名词和形容词功能 |
| USE | 当一个词有多个含义时,区分并编号每个含义,每个用法由单独的词条描述 | blanc [white] 有14个词
超级会员免费看
订阅专栏 解锁全文
1141

被折叠的 条评论
为什么被折叠?



