requests使用技巧

本文介绍了使用Python进行网页爬取的基本方法,包括获取网站源代码、响应头信息、状态码及图片下载等操作,并探讨了解决JavaScript渲染问题的技术方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 获取网站源代码

response = requests.get("http://www.baidu.com")
# 获取网站源代码
print(response.text)

2. 打印网站的响应头

print(response.headers)
# 打印状态码 200表示正常访问了百度
print(response.status_code)

3. 添加响应头(写一个爬虫首先就是学会设置请求头header,这样才可以伪装成浏览器)

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
response = requests.get("http://www.baidu.com",headers = headers)

# 打印状态吗
print(response.status_code)

4. 抓取图片并保存(response.content返回为十六进制,以二进制写入到文件中)

# 抓取图片信息
response = requests.get("https://www.baidu.com/img/bd_logo1.png?where=super")
# 获取响应体的二进制格式
print(response.content)
# 将图片写入文件
with open("1.gif","wb") as f:
    f.write(response.content)

5. 解决JS渲染问题(Ajax动态加载问题)

from selenium import webdriver
# 模拟浏览器
driver = webdriver.Chrome()
driver.get("http://m.weibo.com")
driver.get("http://www.taobao.com")
# 获取解决JS渲染问题后的源代码(解决Ajax问题)
print(driver.page_source)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HPF4212

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值