19、解析XML：从分离岛屿到构建完整解析器

a1b2c3d

于 2025-08-14 14:25:08 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏： ANTLR 4权威指南：构建语言处理程序的艺术文章标签： XML解析岛屿语言词法分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a1b2c3d/article/details/150522496

ANTLR 4权威指南：构建语言处理程序的艺术专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

解析XML：从分离岛屿到构建完整解析器

1. 流中的岛屿语言

在处理文件时，我们常见的文件格式大多只包含单一语言，如DOT、CSV、Python和Java文件等。但还有一些文件格式，其中结构化区域（岛屿）被随机文本（海洋）包围，我们将这类格式称为岛屿语言，并用岛屿语法来描述。例如模板引擎语言（如StringTemplate）、LaTeX文档准备语言，而XML是典型的岛屿语言，其文件包含结构化标签和实体，周围是大量我们不关心的内容。

分类是否为岛屿语言往往取决于我们的视角。例如，构建C预处理器时，预处理器命令构成岛屿语言，C代码是海洋；而构建适用于IDE的C解析器时，解析器需忽略大量预处理器命令。

我们的目标是学会忽略海洋部分，对岛屿部分进行分词，以便解析器验证这些岛屿内的语法，这是构建真正XML解析器的关键。

1.1 从文本海洋中分离XML岛屿

要将XML标签与文本分离，我们可能首先想到构建一个输入字符流过滤器，去除标签间的所有内容。但这样会丢弃所有文本数据，并非我们想要的结果。例如，输入 <name>John</name> ，我们不希望丢弃 John 。

因此，我们构建一个简单的XML语法，将标签内的文本作为一个标记，标签外的文本作为另一个标记。这里我们关注词法分析器，使用单个语法规则匹配一系列标签、实体、CDATA部分和文本（海洋）。

grammar Tags;
file : (TAG|ENTITY|TEXT|CDATA)* ;

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。