背景
一些工具在通过浏览器打开URL对应页面时会经过多重的转义,以至于只经过一次URL的解析无法还原出URL的原样。在分析页面路径时很让人困惑。
示例
from urllib.parse import quote
url1 = "\百度"
print("url内容", url1)
ret1 = quote(url1, encoding="utf-8")
print("一次转义", ret1)
ret_q = quote(ret1, encoding="utf-8")
print("二次转义", ret_q)
运行结果
url内容 \百度
一次转义 %5C%E7%99%BE%E5%BA%A6
二次转义 %255C%25E7%2599%25BE%25E5%25BA%25A6
在转义过后
\
转变为%255C
解决
多重转义大多情况下每一层转义都遵守相同的转义编码格式,直接通过解析得到原有的内容
完整代码
from urllib.parse import quote, unquote
url1 = "\百度"
print("url内容", url1)
ret1 = quote(url1, encoding="utf-8")
print("一次转义", ret1)
ret_q = quote(ret1, encoding="utf-8")
print("二次转义", ret_q)
ret2 = unquote(ret_q, encoding="utf-8")
print("一次解析", ret2)
ret3 = unquote(ret2, encoding="utf-8")
print("二次解析", ret3)
运行结果
url内容 \百度
一次转义 %5C%E7%99%BE%E5%BA%A6
二次转义 %255C%25E7%2599%25BE%25E5%25BA%25A6
一次解析 %5C%E7%99%BE%E5%BA%A6
二次解析 \百度