python 检查编码chardet 并非有效

博客讲述了在使用Python请求网页并尝试记录响应内容时遇到的编码问题。尽管chardet检测到的编码为GB2312,但实际能够成功解码的编码是windows-1252。这揭示了在处理编码时可能出现的挑战,以及chardet检测的不准确性。最后,博主修改了logging模块的源码以适应windows-1252编码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

样例网址如下:

http://www.angenechemical.com/productshow/AGN-PC-0JCLT7.html


用Python请求这个网站,并且让logger 记录请求到的body

    def parse(self, response):
        try:
            result = {}
            for tr in response.xpath("//table[@class='pInforstyle']/tr"):
                name = "$".join(tr.xpath("td[1]/span/text()").extract())
                value = "$".join(tr.xpath("td[2]/text()").extract())
                result[name] = value
            result.update({
                "img_url": "http://www.angenechemical.com%s" % "".join(response.xpath("//div[@class='pd_contact']/table/tr[1]/td[1]/img[1]/@src").extract()),
                "url": response.url,
                })
            raise Exception
            yield result
        except Exception,e:
            self.logger.exception(response.body)


logging 模块会报错,utf-8 can't decode...什么什么的,或者是gbk can't decode

注意在这之前,我们已经更改过logging模块的源码,变成了




try:
    stream.write(fs % msg.encode("UTF-8"))
except UnicodeError:
    stream.write(fs % msg.decode("gbk").encode("UTF-8"))

出现这个问题就是说,现在decode gbk也出问题了

了所以这个try 还得继续try下去

 

decode gb2312不行,又看到


encode("UTF-8").strip(

也不行,最后看到一个奇葩的 windows-1252 这个居然通过了,能写入了

说明最后的编码是windows-1252。。。。。



然而用chardet 检测,

import chardet
print "\n\ndetect charset : "+str(chardet.detect(msg))

给出的答案是 

detect charset : {'confidence': 0.99, 'language': 'Chinese', 'encoding': 'GB2312'}


但是明显的 gb2312根本不能decode, 能decode的是 windows-1252


所以最终logging的源码是被改成了


try:
    stream.write(fs % msg.encode("UTF-8"))
except UnicodeError:
    try:
        stream.write(fs % msg.decode("gbk").encode("UTF-8"))
    except UnicodeDecodeError:
        stream.write(fs % msg.decode("windows-1252").encode("UTF-8"))   


gbk 不行,那么就再来 windows-1252...



顺便说一句,在stackoverflower上看到一句非常得心的话,检测字符编码,基本上是不可能或者总是有错的





原链接在这里:


https://stackoverflow.com/questions/436220/determine-the-encoding-of-text-in-python




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值