Python爬虫解决乱码问题

最新推荐文章于 2024-08-08 17:59:21 发布

原创

最新推荐文章于 2024-08-08 17:59:21 发布 · 4.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #乱码 #gbk

本文探讨了Python爬虫在处理网页时遇到的乱码问题，主要原因是网页编码格式与存储格式不一致，特别是GBK编码的页面。介绍了UTF-8和GBK编码的特点，以及Unicode作为转换桥梁的角色。并提供了一个解决乱码问题的参考链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题原因：
爬取的所有网页无论何种编码格式，都转化为utf-8格式进行存储，与源代码编码格式不同所以出现乱码。

目前大部分都是utf-8格式，一部分是gbk格式或者（会出现乱码），还有一些不常见的，比如Windows-1254，UTF-8-SIG等这里不做讨论。国内网页还没有看到别的编码格式，欢迎补充指正！

简单科普一下：　　
UTF-8通用性比较好，是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。

UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示，也就是必须两者都是utf-8才行。

gbk是是国家编码，通用性比UTF8差，GB2312之类的都算是gbk编码。

GBK包含全部中文字符；UTF-8则包含全世界所有国家需要用到的字符。

unicode是一种二进制编码，所有utf-8和gbk编码都得通过unicode编码进行转译，即utf-8和gbk编码之间不能直接转换。附图如下：
在这里插入图片描述
解决办法：

page =requests.get(url)
encoder = 'utf-8'
try:
    html = urllib.request.urlopen(url).read()
    encoder = chardet.detect(html)['encoding']
except Exception as e:
    print(e)

if encoder == 'utf-8' or encoder == 'UTF-8':
    pass
elif encoder == 'GBK' or encoder == 'gbk':
    page.encoding = 'GBK'
elif encoder == 'GB2312'