19、自然语言的词法分析：从基础到应用

最新推荐文章于 2025-12-15 11:45:10 发布

snow3

最新推荐文章于 2025-12-15 11:45:10 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：形式化自然语言探秘文章标签：词法分析自然语言处理多词单元

本文链接：https://blog.youkuaiyun.com/snow3/article/details/155013199

形式化自然语言探秘专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言的词法分析：从基础到应用

1. 词法分析基础

词法分析是语言分析的第一步，旨在识别文本中的所有原子语言单位（ALUs），并将它们作为注释存储在标注集（TAS）中。这一过程本身就很复杂，而且描述ALUs的现象会因语言的书写系统和形态而有所不同。

以德语单词 “Donaudampfschiffahrtsgesellschaftskapitän” 为例，它由四个ALUs组成：Captain（船长）、Company（公司）、Steamer（轮船）和Danube（多瑙河）。词法分析器的目标就是从这种黏着形式中提取出这些ALUs的序列。

2. 多词单元识别

多词单元是包含字母和分隔符的ALUs。常见的分隔符有空格、连字符、撇号等，很多技术术语、组织或产品名称还可能包含数字或其他分隔符。例如 “as soon as possible”、“well - prepared”、“McDonald’s” 等。

多词单元通常通过查询字典（如DELAC）来识别。但需要注意的是，词法分析器识别到多词单元，仅意味着该ALU可能出现在文本中，并不一定实际存在。比如 “I saw the egg roll off the counter” 这句话，“egg roll” 在这里就不是作为一个多词单元（春卷）存在，需要逐词分析。词法分析器会提供所有可能的词法假设并存储在TAS中，后续的句法或语义分析器会消除歧义。

一般来说，多词单元和技术术语会在字典中描述，但有时将术语组合在语法中会更好。例如，一个包含2500多个保险类型相关潜在术语的语法，比按字母顺序排列的字典更易于维护。在实际应用中，自动索引技术文本术语的软件（如医学领域的Medline）会使用数百个这样的局部语法。

3. 表达式识别

表达式是ALUs的第四种类型，是一种可能不连续的词形序列。多词单元和表达式的本质区别在于，多词单元的成分之间不允许插入其他内容，而表达式允许。例如：
- 多词单元：“a delicious sweet potato” 不能写成 “a sweet delicious potato”。
- 表达式：“the more … the more …” 可以是 “the more he speaks the more they laugh”。

表达式包括习语或隐喻表达式（如 “to kick the bucket”）、技术表达式（如 “to draw blood”）、短语动词（如 “to act out”）以及轻动词/谓语名词组合（如 “to make a decision”）。构建英语表达式字典是必要的。

词法分析器需要识别文本中表达式的所有出现情况，因为如果无法识别表达式，后续的句子分析将失败。词法分析器会提供许多词法假设，这些假设暂时存储在TAS中，部分会被后续的句法或语义分析消除。

4. 特征成分

为了识别表达式的所有出现情况，需要用一个不变量来表征它，这个不变量就是表达式的特征成分，它构成了代表该ALU的词法条目。

有时候可以考虑多个成分作为特征成分。例如，对于 “to take something into account” 这个表达式，可以用 “to take” 或 “account” 作为词法条目：
- “take,V+EXP = "to take something into account"”
- “account,N+EXP = "to take something into account"”

但在很多情况下，特征成分只能是一个。比如 “to have lunch”，用 “lunch” 作为特征成分更好。如果用 “have” 作为词法条目，当 “have” 不出现时（如 “Joe and Lea’s lunch was really good”），词法分析器就无法识别该表达式。

同时，要避免无意义地多次激活词法分析器。例如，对于 “to blow up”，选择 “up” 作为特征成分是不明智的，因为 “up” 非常常见，会导致大量不必要的计算。

5. 特征成分的变化

特征成分并不总是不变的。例如，“to take into account” 中的 “take” 和 “to blow up” 中的 “blow” 可以在文本中进行变位。因此，需要在字典中对词形变化进行形式化，如 “take,V+FLX = TAKE+EXP = "take into account"”。

有些表达式会有词汇变体，如 “to lose one’s (marbles | mind | sanity | senses | wits)”，每个变体都可以在字典中与同一个ALU关联：
- “marbles,N+EXP = "lose one’s mind"”
- “mind,N+EXP = "lose one’s mind"”
- “reason,N+EXP = "lose one’s mind"”
- “sanity,N+EXP = "lose one’s mind"”
- “senses,N+EXP = "lose one’s mind"”
- “wits,N+EXP = "lose one’s mind"”

6. 轻动词的变化

轻动词/谓语名词组合通常会有体貌或情态变体。例如 “to be hungry” 可以有 “The late meeting made Ida hungry. Ida was getting hungry.” 等形式；“to have some courage” 可以有 “That event gave him the courage to speak his mind” 等形式。

为了解析这些例子，句法分析器需要在动词不出现时也能访问相应的表达式。因此，可以将特征成分简化为一个词，如 “hungry” 和 “courage”。词法分析器会在 “courage” 出现时将 “to have courage” 添加到TAS中，后续的句法或语义分析将验证或消除该表达式的存在。

7. 歧义解决

将每个表达式的特征成分输入字典可以确保词法分析器识别文本中出现的所有表达式，但这种方法会产生大量后续需要消除的词法假设。例如，“mind” 是20多个表达式的特征成分，词法分析器不应该为文本中每次出现的 “mind” 都生成所有这些潜在的词法假设，否则会显著增加TAS的大小。

一般来说，不进行句法分析就无法绝对确定一个表达式是否真的存在于句子中。但在实践中，可以通过检查上下文来消除大量表达式。例如，在 “Keep in mind the store is closed after 6PM.” 这句话中，由于 “one”、“different”、“bear” 等成分不存在，就不需要生成 “be of one mind”、“be of a different mind”、“bear in mind” 等词法假设。

为了过滤无用的词法假设，可以使用以下两种信息：
- 在字典中为每个表达式添加上下文数据，例如 “mind,V+FLX = HELP+EXP = "mind the gap"+NP1 = "the gap"”。
- 在语法中添加约束，检查字典中描述的属性（如 “+NP1”）是否与特征成分（如 “mind”）的上下文相符。

一个简单的语法可以用于处理具有 “Verb + Frozen Complement” 结构的数百个表达式，通过这种方式，超过95%的表达式可以通过对特征成分上下文的简单检查被拒绝。

8. 表达式标注

上述的字典和语法可以识别文本中的所有表达式，识别出的表达式需要在TAS中列出。

当表达式在文本中连续出现时，标注比较简单，类似于多词单元的标注。但当表达式不连续时，需要在TAS中生成和管理不连续的标注。

NooJ将不连续的标注表示为一系列通过关键词 “XREF” 相互链接的部分标注。例如，一个语法可以识别1200多个短语动词（），即使短语动词和小品词分开，也能为每个短语动词生成标注。对于 “Lea turned off the lights”，语法通过上路径生成标注；对于 “Joe turned the lights off”，语法将 “turned” 标注为，“off” 标注为，这两个标注在TAS中会合并为一个。

将特征成分字典与形式化每个表达式上下文的语法相结合，为TAS添加标注，实现简单且能提高词法分析器的效率。

9. 总结

词法分析是语言分析的重要第一步，虽然复杂，但对于后续的句法和语义分析至关重要。在词法分析过程中，需要解决编码、字符歧义、数据缺失等问题，识别多词单元和表达式，并处理它们的各种变化和歧义。同时，通过合理的字典和语法设计，可以提高词法分析的效率和准确性。

以下是一个简单的mermaid流程图，展示词法分析的主要步骤：

graph LR
    A[文本输入] --> B[识别词形]
    B --> C[识别多词单元]
    C --> D[识别表达式]
    D --> E[生成词法假设]
    E --> F[存储到TAS]
    F --> G[句法/语义分析消除歧义]

类型	特点	识别方法
多词单元	包含字母和分隔符，成分间一般不允许插入	查询字典，结合语法
表达式	可能不连续的词形序列，成分间允许插入	确定特征成分，结合上下文检查

自然语言的词法分析：从基础到应用

10. 词法分析的挑战与应对策略

词法分析过程中面临着诸多挑战，这些挑战主要源于语言的多样性和复杂性。以下是一些常见的挑战及相应的应对策略：

编码和字符歧义问题
不同语言的编码方式不同，有些字母可能存在多种编码形式，如复合字母和连字。同时，一些字符在不同语境下可能有不同的含义，例如英语中的撇号/引号、破折号/连字符以及句号/缩写标记。为了解决这些问题，需要在词法分析的初始阶段进行编码处理，识别并统一字符的编码形式，同时结合上下文判断字符的具体含义。

数据缺失问题
某些语言存在数据缺失的情况，如中文缺乏空格分隔、阿拉伯语缺乏元音、英语缺乏重音等。对于这些问题，可以采用特定的分词算法和规则来进行处理。例如，对于中文，可以使用基于词典的分词方法、统计分词方法或机器学习分词方法；对于阿拉伯语和英语，可以根据语言的语法规则和上下文信息来补充缺失的数据。

表达式识别的复杂性
表达式的识别是词法分析中的一个难点，因为表达式可能是不连续的，且具有多种变体。为了应对这一挑战，需要确定表达式的特征成分，并在字典中对特征成分的词形变化和词汇变体进行形式化描述。同时，结合上下文检查来消除歧义，提高表达式识别的准确性。

11. 词法分析的实际应用

词法分析在自然语言处理领域有着广泛的应用，以下是一些常见的应用场景：

信息检索
在信息检索系统中，词法分析可以帮助将用户输入的查询词进行分词和规范化处理，提高检索的准确性和效率。例如，在搜索引擎中，词法分析可以将用户输入的查询词拆分成多个关键词，并对关键词进行词形还原和同义词扩展，从而扩大检索范围，提高检索结果的相关性。

文本分类
文本分类是将文本自动分类到不同类别的任务。词法分析可以帮助提取文本的特征，如关键词、词性等，从而提高文本分类的准确性。例如，在新闻分类系统中，词法分析可以将新闻文本中的关键词提取出来，并根据关键词的词性和语义信息进行分类。

机器翻译
机器翻译是将一种语言的文本翻译成另一种语言的任务。词法分析可以帮助对源语言文本进行分词和词性标注，从而为后续的句法分析和语义理解提供基础。例如，在翻译系统中，词法分析可以将源语言文本拆分成多个单词，并对每个单词进行词性标注，从而帮助翻译系统更好地理解源语言文本的语法结构和语义信息。

12. 词法分析的未来发展趋势

随着自然语言处理技术的不断发展，词法分析也将面临新的挑战和机遇。以下是一些词法分析的未来发展趋势：

深度学习的应用
深度学习技术在自然语言处理领域取得了显著的成果，未来词法分析可能会更多地采用深度学习方法。例如，使用循环神经网络（RNN）、长短时记忆网络（LSTM）和门控循环单元（GRU）等模型来进行词法分析，这些模型可以自动学习语言的语法和语义信息，从而提高词法分析的准确性和效率。

多语言处理
随着全球化的发展，多语言处理的需求越来越大。未来词法分析需要支持更多的语言，并且能够处理不同语言之间的差异。例如，需要开发适用于不同语言的分词算法和规则，以及支持多语言的字典和语法。

语义理解的融合
词法分析是自然语言处理的基础阶段，未来词法分析将与语义理解更加紧密地融合。例如，通过词法分析提取文本的关键词和词性信息，然后结合语义理解技术对文本的语义信息进行分析和处理，从而实现更加智能的自然语言处理应用。

13. 总结与展望

词法分析是自然语言处理的重要基础，它对于后续的句法分析、语义理解和应用开发都有着至关重要的作用。通过本文的介绍，我们了解了词法分析的基本概念、方法和应用，以及面临的挑战和未来的发展趋势。

在实际应用中，我们需要根据具体的需求和场景选择合适的词法分析方法和工具，同时不断探索和创新，以提高词法分析的准确性和效率。未来，随着自然语言处理技术的不断发展，词法分析将在更多的领域得到应用，为人们的生活和工作带来更多的便利和价值。

以下是一个mermaid流程图，展示词法分析在自然语言处理中的整体流程：

graph LR
    A[原始文本] --> B[词法分析]
    B --> C[句法分析]
    C --> D[语义理解]
    D --> E[应用开发]
    E --> F[信息检索]
    E --> G[文本分类]
    E --> H[机器翻译]

发展趋势	描述
深度学习的应用	采用深度学习模型自动学习语言的语法和语义信息，提高词法分析的准确性和效率
多语言处理	支持更多语言，处理不同语言之间的差异，开发适用于不同语言的分词算法和规则
语义理解的融合	与语义理解更加紧密地融合，结合词法分析和语义理解技术实现更加智能的自然语言处理应用