1410. HTML 实体解析器-优快云博客

本文链接：https://blog.youkuaiyun.com/Lucy_wzw/article/details/148645277

HTML 实体解析器 —— 解题分析与实现详解

HTML 实体解析器 —— 解题分析与实现详解

题目描述

在 HTML 代码中，有一些特殊字符需要用字符实体（Character Entities）来表示，以避免与标签语法冲突。例如：

特殊字符	字符实体
双引号	`"`
单引号	`'`
与符号	`&`
大于号	`>`
小于号	`<`
斜线号	`&frasl;`

题目要求：
给定一个字符串 text，实现一个 HTML 实体解析器，将所有这些字符实体解析成它们对应的特殊字符。

例如：

输入：
"&quot;&apos;&amp;&gt;&lt;&frasl;"

输出：
""'&><&frasl;"

注意这里的解析是只进行一层解析，也就是说像 &gt; 解析后是 >，而不是继续解析成 >。

解题分析

一开始的想法是：直接把所有字符实体全部替换成对应的字符，比如 " 替换成 "，& 替换成 &，等等。

这听起来很简单，直接用 Python 的 str.replace() 一一替换即可：

for entity, char in entity_map.items():
    text = text.replace(entity, char)

但当遇到类似 &gt; 这样的实体时，直接替换会把它变成 >，这不符合题目要求。题目要求只替换最外层的实体，而 &gt; 应该先被解析成 >，而不是继续递归解析。

因此，这种直接全局替换的方法不适用。

解决思路

我们要做的是：

逐字符扫描字符串。
遇到 & 字符时，尝试匹配所有预定义的实体名，看是否在当前位置出现了一个完整的实体。
如果匹配成功，替换为对应的字符，跳过对应的字符长度。
如果不匹配，原样输出当前字符，继续扫描。

这样做可以保证只替换最外层实体，不会误把二层甚至更多层的实体递归替换。

解题代码（Python）

class Solution:
    def entityParser(self, text: str) -> str:
        entity_map = {
            "&quot;": '"',
            "&apos;": "'",
            "&amp;": "&",
            "&gt;": ">",
            "&lt;": "<",
            "&frasl;": "/"
        }
        
        res = []
        i = 0
        n = len(text)
        
        while i < n:
            if text[i] == '&':
                matched = False
                # 尝试匹配所有实体
                for entity, char in entity_map.items():
                    length = len(entity)
                    if text[i:i+length] == entity:
                        res.append(char)
                        i += length
                        matched = True
                        break
                if not matched:
                    # 不是实体，原样输出
                    res.append(text[i])
                    i += 1
            else:
                res.append(text[i])
                i += 1
        
        return "".join(res)

示例说明

输入：

"&amp;quot;&amp;apos;&amp;amp;&amp;gt;&amp;lt;&amp;frasl;"

逐步解析：

&quot; 解析成 "
&apos; 解析成 '
&amp; 解析成 &
&gt; 解析成 >
&lt; 解析成 <
&frasl; 解析成 &frasl;

最终输出：

"&quot;&apos;&amp;&gt;&lt;&frasl;"

这与题目预期一致，说明解析器只处理了最外层实体。

方案比较与分析

方案	优点	缺点
全局替换（replace）	简单、代码短、实现快	不能区分实体层级，导致过度替换
逐字符扫描+匹配实体（本文方案）	精确控制替换行为，符合题目要求，防止递归解析	稍复杂，代码相对冗长
正则表达式匹配实体	语法简洁，易匹配实体	处理多层嵌套实体不够灵活，性能开销较大