自然语言形式化与电子词典:理论、挑战与解决方案
1. 自然语言形式化的基础
自然语言形式化是一个复杂而重要的领域,它涉及对语言词汇的详尽描述。在分析具有“限定词 + 名词 + 名词”结构的短语时,我们不仅要识别出十几个常见的转换形式,还要处理数千个适用于特定短语的特殊转换,以及数万个常规转换不适用的短语。这些“例外”需要被识别并列出,我们可以将它们视为语言单元(ALUs),并列入通用词典中。
为了形式化一种语言,我们需要对其词汇进行详尽描述。这要求我们进行共时描述,即不考虑语言的演变,并且控制词汇范围,例如将描述限制在“标准”的非技术和非地区性词汇上。语言的词汇元素可以分为四类:词缀(如前缀 re -)、简单词(如 table)、多词单元(如 sweet potatoes)和表达式(如 take … into account)。将词缀视为独立的 ALUs 有助于分析带前缀或后缀的形式;而将多词单元和表达式视为独立的 ALUs 则可以将它们作为一个整体进行处理,避免逐词分析可能产生的错误。
区分多词单元和表达式与简单词序列并非总是清晰明确的,但我们可以通过三个标准来进行区分:
1. 意义不可完全预测 :ALU 的意义不能以可预测的方式完全分析。
2. 使用公式化 :ALU 的使用具有公式化的特点。
3. 构成转换规则的例外 :ALU 是某个常见转换规则的例外。
这三个标准具有可重复性,有助于积累语言描述,使我们的语言项目具有可行性。同时,它们对于自然语言处理(NLP)应用,如搜索引擎或自动翻译,也至关重要,因为这些应用可
超级会员免费看
订阅专栏 解锁全文
1271

被折叠的 条评论
为什么被折叠?



