python用于url解码和中文解析的小脚本(续)

本文探讨了非默认编码环境下中文URL的解码问题,并提供了解决方案。针对GBK和UTF-8的不同字节需求,通过忽略异常字节及采用特定解码参数实现了正确的解码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

非默认编码的转换 import urllib a=”http://zh.wikipedia.org/wiki/%BD%F0%B6″ b=”http://zh.wikipedia.org/wiki/%E9%97%A8″ de=urllib.unquote print de(a),de(b) 之前的文章里的这段代码,我没有考虑到gbk和utf编码的问题,以为不带有%5Cu这种unicode标志字符的汉字解码只要unquote就万事大吉了呢,但对于与“默认编码环境”不同的编码来说,还需要再多一步处理,所以上述的代码是无法对a正确解码的 TL给出了一种解决办法,可以处理a这种残疾的编码形式(残疾的原因,下面就会解释) de(a).decode(“gbk”,”ignore”) de(b).decode(“utf8″,”ignore”) 再print就可以打印出中文字符了~ 残疾的编码 可是,问题又来了,为什么还需要“ignore”这个参数呢,我发现如果不加这个参数,这样使用,会报错的。 de(a).decode(“gbk”) 检查了一下a在gfwlist中的出处以后,我发现自己犯了一个挺低级的错误的(汗。) 事实是:a里那个网站本来应该是zh.wikipedia.org*%BD%F0%B6%DC%B9%A4%B3%CC这样的,我误以为汉字编码都是3个“百分号+2个十六进制数”(3个字节)这样的样式,所以只取了前3个字节,也就是“%BD%F0%B6″。 而问题在于,gbk编码和utf编码所需的字节数是不一样的,gbk只需2个字节即可编码一个汉字,而a是用gbk编码的,1个汉字的解码不需要3个字节,多出来的这1个残疾的字节就成为了decode异常的来源,删掉这个多余的字节以后,解码顺利通过: import urllib a=”http://zh.wikipedia.org/wiki/%BD%F0″ # gbk, 2 bytes per Chinese character b=”http://zh.wikipedia.org/wiki/%E9%97%A8″ # utf8, 3 bytes per Chinese character de=urllib.unquote print de(a).decode(“gbk”) print de(b).decode(“utf8″) 定义解码方式的优先级 最后,我将TL的脚本中以优先级的形式处理多种中文编码的函数代码copy了过来,同时将中文编码的字节下限由3字节改为了2个字节以后,发现原来gfwlist中所有不能正常解码的中文,现在都可以显示出来了,哈哈,不错~ import urllib import re def _strdecode(string): try: return string.decode(‘utf8′) except […]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值