URL 多次编码（\变%255C）（/变%255F）

最新推荐文章于 2024-06-29 14:38:00 发布

The_Singing_Towers

最新推荐文章于 2024-06-29 14:38:00 发布

阅读量751

点赞数

分类专栏：摸鱼笔记文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_38605114/article/details/128520909

版权

摸鱼笔记专栏收录该内容

14 篇文章

订阅专栏

文章讲述了在处理URL时遇到的多重转义问题，通过Python的urllib.parse模块的quote和unquote函数进行转义和解码，演示了如何正确还原URL的原始内容。通过两次转义和解析，成功将二次转义后的URL恢复到初始状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

一些工具在通过浏览器打开URL对应页面时会经过多重的转义，以至于只经过一次URL的解析无法还原出URL的原样。在分析页面路径时很让人困惑。

示例

from urllib.parse import quote

url1 = "\百度"
print("url内容", url1)
ret1 = quote(url1, encoding="utf-8")
print("一次转义", ret1)
ret_q = quote(ret1, encoding="utf-8")
print("二次转义", ret_q)

运行结果

url内容 \百度
一次转义 %5C%E7%99%BE%E5%BA%A6
二次转义 %255C%25E7%2599%25BE%25E5%25BA%25A6

在转义过后 \转变为%255C

解决

多重转义大多情况下每一层转义都遵守相同的转义编码格式，直接通过解析得到原有的内容
完整代码

from urllib.parse import quote, unquote

url1 = "\百度"
print("url内容", url1)
ret1 = quote(url1, encoding="utf-8")
print("一次转义", ret1)
ret_q = quote(ret1, encoding="utf-8")
print("二次转义", ret_q)

ret2 = unquote(ret_q, encoding="utf-8")
print("一次解析", ret2)
ret3 = unquote(ret2, encoding="utf-8")
print("二次解析", ret3)

运行结果

url内容 \百度
一次转义 %5C%E7%99%BE%E5%BA%A6
二次转义 %255C%25E7%2599%25BE%25E5%25BA%25A6
一次解析 %5C%E7%99%BE%E5%BA%A6
二次解析 \百度