python爬取网页—网站编码

本文介绍如何检查网页编码格式,如gb2312,并通过Python进行解码转换为unicode及再编码的过程。针对抓取不同编码格式网页时可能出现的问题提供解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在爬取网站之前需要查看网页的编码方式,对应的,通过查看网页源代码,在网站页面配合按键F12 ctrl+F 搜索"charset"可找到如下类似信息:

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">...

网页抓取,要查看编码格式,发现是gbk格式的,抓取时候,你的python系统是不认识,你的sublime系统也是不认识的,这里就需要把gbk格式解码成系统认识的unicode编码,解码方式:a.decode('gbk'),他的意思是对a这个字符串根据gbk的形式进行解码为unicode,注意这里是如果你打印出来,不一定就是你想要的中文,还需要指定编码格式,a.encode('gbk')的意思是对a这个字符串gbk编码,上面提到这个a字符串必须是unicode编码前提下才能encode;encode后就会按照你想要的编码格式输出了。

如果的有网页抓取不成功要考虑不是编码的问题,另外requests.get(url,headers=...),有的还需要加入headers属性才能相应成功响应。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值