8、自然语言形式化与电子词典探索

自然语言形式化与电子词典探索

1. 自然语言形式化基础

在自然语言处理中,对特定结构短语的分析颇具挑战。以 “Determiner Noun Noun” 结构的短语为例,像 “a student protest” 可转换为 “a protest of students” ,进而变成 “the students protest” 以及 “the students organize a protest” 。分析这类短语时,我们不仅要识别出十几种常见的转换形式,还要处理数千种针对特定短语的特殊转换,以及数万个常规转换不适用的短语。这些 “例外” 可视为语言单元(ALUs),并应列入通用词典。

为了实现语言的形式化,我们需要详尽描述其词汇。这要求我们对标准词汇进行共时性描述,然后定义其元素——ALUs。ALUs 可分为四类:词缀(如前缀 “re -” )、简单词(如 “table” )、多词单元(如 “sweet potatoes” )和表达式(如 “take … into account” )。将词缀视为独立的 ALUs 有助于分析加前缀或后缀的形式;把多词单元和表达式当作独立的 ALUs ,能将它们作为一个整体处理,避免逐词分析的错误。

区分多词单元、表达式和简单词序列并非易事,但有三个标准可供参考:
1. ALU 的含义无法以可预测的方式完全分析。
2. ALU 的使用具有公式化特点。
3. ALU 是某种常见转换规则的例外。

这三个标准具有可重复性,便于积累语言描述,使语言项目切实可行。同时,它们对自然语言处理应用(如搜索引擎或自动翻译)至关重要,因为这些应用可以处理 ALUs 而非单个词形。

1.1 相关练习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值