python处理HTML转义字符

最近利用js2xml来获取<script>数据,代码如下:

src_text = js2xml.parse(src, debug=False)
src_tree = js2xml.pretty_print(src_text)

我们就把数据转化成了xml标签树,(注意转化后的src_tree是str类型,后面的unescape()好像只对str有用)但是我发现转化后的'<'都成了'&lt' HTML的转义字符,所以把转义字符转化过去,利用了HTMLParse库,但是python3已经将原来的HTMLParse模块改成了 html.parse里的HTMLParse

另外如果还报错No module named 'markupbase',可以将HTMLParse.py文件里所有的markupbase改成_markupbase

下面就是处理HTML转义符的代码

from html.parser 
txt =html.parser.HTMLParser.unescape('self','&lt;')

 

### Python处理字符串转义字符的方法 在 Python 中,当需要在字符串中使用特殊字符时,可以利用反斜杠 `\` 来实现转义功能[^1]。例如: ```python print('He said, "What\'s there?"') # 输出: He said, "What's there?" ``` 为了展示不同类型的转义字符及其效果,在此提供几个常见例子: - 制表符 `\t` 可以用来增加水平间距。 ```python print('t 的转义效果是:\tPython 集中营') ``` - 使用`\r`可以在同一行内更新输出内容。 ```python import time for i in range(101): print(f"\r{i:3}%", end='') time.sleep(0.05) ``` 除了上述方式外,还可以采用原始字符串来简化某些场景下的编码工作。通过在字符串前加上字母 `r` 或者 `R` ,可以让其中所有的反斜杠被当作普通字符对待而不触发任何转义机制[^5]。 ```python path = r'C:\Users\name' # 原始字符串表示法 print(path) # 输出: C:\Users\name ``` 另外值得注意的一点是在三重引号定义多行字符串的情况下,默认情况下会保留换行符和其他空白符号;但如果希望去除这些不必要的空格,则可以通过适当调整缩进来解决这个问题[^2]。 最后提到的是取消转义字符的效果,这通常不是直接的需求,但在特定场合下可能有用。一种做法就是将整个字符串作为原始字符串处理,即前面所讲到的方式;另一种则是改变字符串本身的写法,比如用不同的引号组合代替原有的形式[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值