python爬虫编码彻底解决

本文详细介绍了Python爬虫过程中遇到的中文编码问题,包括编码原理、编码与解码的区别,以及解决爬取中文网站时出现的GBK错误。通过实例演示了如何正确处理编码,避免出现乱码。同时提到了BeautifulSoup库在解析网页中的作用,帮助提升爬虫的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

编码原理及区别

  • 第一阶段:编码的由来:大家都知道计算机的母语是英语,英语是由26个字母组成的。所以最初的计算机字符编码是通过ASCII来编码的,也是现今最通用的单字节编码系统,使用7位二进制数来表示所有的字母、数字、标点符号及一些特殊控制字符,作为美国编码标准来使用。
  • 第二阶段:由于计算机的不断普及,计算机进入了不同的国家和地区。很快表现出了众多的水土不服的症状。比如:中国人就表示不服,就不能让计算机说中文吗?但是ASCII编码用上浑身解数256个字符也不够中文用啊。
    因此后来出现了Unicode编码。Unicode编码通常由两个字节组成,共表示256*256个字符,即所谓的UCS-2。某些生僻的字还会用到四个字节,即UCS-4。Unicode向下兼容ASCII。
  • 第三个阶段:在Unicode中,很快,美国人不高兴了,原本用一个字节就够了,现在却要用两个字节来表示,非常浪费存储空间和传输速度。人们再发挥聪明才智,于是出现了UTF-8编码。主要针对空间浪费的问题。UTF-8从英文字母的一个字节,到中文的通常的三个字节,再到某些生僻字的六个字节。解决了空间浪费的问题,并且兼容老大哥ASCII编码。这样一些老古董软件在UTF-8编码中可以继续工作了。
    另外需要注意的是汉字在Unicode编码和UTF-8编码中通常是不同的。
  • 第四个阶段:同样我们祖国也制定了自己的一套标准。那就是GB2312和GBK。但是大多数还是直接用的UTF-8。UTF-8/UTF-16等是对Unicode进行了编码,是其一种实现方式。
    另外还有ISO-8859-1,ISO-8859-1是单字节编码,向下兼容ASCII,是许多欧洲国家使用的编码标准。
    Unicode是国际通用的编码标准,可以表示全世界的字符,但其字符集也是最复杂、占用空间最大的。开发者可以根据需要进行选择编码方
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值