在爬取网站之前需要查看网页的编码方式,对应的,通过查看网页源代码,在网站页面配合按键F12 ctrl+F 搜索"charset"可找到如下类似信息:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">...
网页抓取,要查看编码格式,发现是gbk格式的,抓取时候,你的python系统是不认识,你的sublime系统也是不认识的,这里就需要把gbk格式解码成系统认识的unicode编码,解码方式:a.decode('gbk'),他的意思是对a这个字符串根据gbk的形式进行解码为unicode,注意这里是如果你打印出来,不一定就是你想要的中文,还需要指定编码格式,a.encode('gbk')的意思是对a这个字符串gbk编码,上面提到这个a字符串必须是unicode编码前提下才能encode;encode后就会按照你想要的编码格式输出了。
如果的有网页抓取不成功要考虑不是编码的问题,另外requests.get(url,headers=...),有的还需要加入headers属性才能相应成功响应。