爬虫下载文件名如下:

文件名中相比浏览器下载的文件名的中文部分均变换为16进制编码,尝试如下三种方式:
decode('utf-8').encode('gbk')
encode('gbk')
decode('utf-8')
均未能改变下载文件的文件名称。
查询得知,采用urllib.unquote()方法达到目的,如下:

以上为个人笔记,其中的深层缘由暂未了解,其中的解决方法来源于网上各位大佬的解答分享和自己的推测和实践得来,若有不对的地方,请大家指教,谢谢
本文记录了在爬虫下载文件时,遇到的文件名中文部分变为16进制编码的问题,并分享了使用urllib.unquote()方法成功解决该问题的实践经验。
爬虫下载文件名如下:

文件名中相比浏览器下载的文件名的中文部分均变换为16进制编码,尝试如下三种方式:
decode('utf-8').encode('gbk')
encode('gbk')
decode('utf-8')
均未能改变下载文件的文件名称。
查询得知,采用urllib.unquote()方法达到目的,如下:

以上为个人笔记,其中的深层缘由暂未了解,其中的解决方法来源于网上各位大佬的解答分享和自己的推测和实践得来,若有不对的地方,请大家指教,谢谢
8185

被折叠的 条评论
为什么被折叠?