自然语言形式化与电子词典探索
1. 自然语言形式化基础
在自然语言处理中,形式化语言是一项重要任务。要分析“限定词 + 名词 + 名词”结构的短语,不仅要识别出一些常见的转换形式,还要处理数千种针对特定短语的特殊转换,以及数万个常规转换不适用的短语。我们可以将这些“例外”视为语言原子单元(ALUs),并把它们列在通用词典中。
为了形式化一种语言,需要详尽地描述其词汇。这要求我们对标准词汇进行共时性描述,然后定义其元素——ALUs。ALUs 可分为四类:
- 词缀 :如前缀“re -”。
- 简单词 :如“table”。
- 多词单元 :如“sweet potatoes”。
- 表达式 :如“take … into account”。
将词缀视为独立的 ALUs 有助于分析加前缀或后缀的形式;将多词单元和表达式视为独立的 ALUs 能将它们作为一个整体处理,避免错误的逐词分析。区分多词单元、表达式和简单词序列并非总是清晰明确,但有三个标准可用于区分:
1. ALU 的含义无法以可预测的方式完全分析。
2. ALU 的使用具有公式化特点。
3. ALU 是某个常见转换规则的例外。
这三个标准具有可重复性,有助于积累语言描述,使语言项目切实可行。同时,它们对自然语言处理应用(如搜索引擎或自动翻译)至关重要,能让这些应用处理 ALUs 而非单个词形。
以下是一个简单的表格示例,展示不同类型的 ALUs:
| ALU 类型
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



