python爬虫踩坑记录

部署运行你感兴趣的模型镜像

课程作业需要用到爬虫,记录一下自己踩过的坑

1、使用requests.get()响应内容调用text方法中文出现乱码

爬虫抓取到的网页响应调用text方法,网页中的中文出现乱码

问题原因:获取到的响应的编码方式与原网页不同,因此需要先修改响应的编码方式,要正确显示内容有一下两种方法

方法(一) 仍然想要通过调用text方法返回网页的文本格式

               更改网页的encoding属性,改为与网页对应的编码方式(网页的编码方式可以在网页的response headers - content type中查看)

response = requests.get(url=url, headers=Header) #header是用于UA伪装的字典
# 发生乱码可以通过print(response.encoding)来查看错误的编码
response.encoding = "utf-8" # 这里的uft-8为网页正确的编码格式, 可以通过浏览器分析网页,在response header中找到content type中查看网页实际的编码方式
response = response.text # 此时就可以得到中文没有发生乱码的网页

方法(二) 调用.content方法

调用content方法返回的是二进制格式的网页内容

此时只要在content方法的返回内容之后调用decode方法,并且将编码方式设置为网页正确的编码格式即可

response = requests.get(url=url, headers=Header).content.decode("utf-8")

 

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值