自然语言形式化中的词法分析
1. 词法分析概述
词法分析旨在从构成文本文件的字符序列出发,识别文本中的所有原子语言单位(ALUs)。早期对自然语言词法分析的提及可追溯到相关研究,如 [SIL 87]。[SIL 93] 引入了软件 INTEX,它是首个能够处理拼写、形态和词汇歧义(包括简单词和复合词之间的歧义)的自动词法分析器,具有广泛的词汇覆盖范围。[KAR 97] 描述了 XFST 工具,该工具常用于工业界构建自动词法分析器。
自动词法分析器需要解决以下几个关键问题:
- 分词(Tokenization) :将文本分解为一系列的词形。
- 词形还原(Lemmatization) :将这些词形与它们对应的词法条目关联起来。
- 标注 :对多词单元和不连续表达式进行标注。
需要注意的是,词法分析的结果大多存在歧义,消除词法分析器产生结果中的所有词法歧义将是后续句法或语义分析的目标。
2. 分词(Tokenization)
2.1 文本预处理
在最低层面上,分析文本需要识别计算机文件中的词形,而该文件由代码序列组成。无论使用何种编码系统(如 ASCII 或 Unicode)来表示字符,或使用何种文件格式(如 DOC 或 HTML)来表示文本结构,我们首先必须将文本内容与格式数据(如斜体、粗体)、结构数据(如标题和页眉)或文本中可能出现的其他数据(如图像)分离。文件的纯文本内容随后可被视为严格的字母(即字母字符)和非字母(即分隔符)字符序列。
超级会员免费看
订阅专栏 解锁全文
932

被折叠的 条评论
为什么被折叠?



