在网页抓取的过程中,往往会遇到一些转义字符,特别是文章内容里面。这种情况很让人反感,那么,应该如何处理这些转移字符,也就是反转义回去呢?

unescape()方法
python3中使用html包里面的unescape()方法可以解决!
源文档

反转义回去后

当然,与unescape()方法相对应的方法是escape()方法
escape()方法
源文档

转义之后

本文介绍如何在Python中处理HTML文章中的转义字符,使用html包的unescape()方法进行反转义,以及对应的escape()方法进行转义,帮助解决网页抓取过程中遇到的特殊字符问题。
在网页抓取的过程中,往往会遇到一些转义字符,特别是文章内容里面。这种情况很让人反感,那么,应该如何处理这些转移字符,也就是反转义回去呢?

unescape()方法
python3中使用html包里面的unescape()方法可以解决!
源文档

反转义回去后

当然,与unescape()方法相对应的方法是escape()方法
escape()方法
源文档

转义之后

2830
772

被折叠的 条评论
为什么被折叠?