requests使用技巧

最新推荐文章于 2024-11-01 11:47:54 发布

原创最新推荐文章于 2024-11-01 11:47:54 发布 · 883 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#requests #selenium #webdriver #动态加载

python3学习笔记专栏收录该内容

21 篇文章

订阅专栏

本文介绍了使用Python进行网页爬取的基本方法，包括获取网站源代码、响应头信息、状态码及图片下载等操作，并探讨了解决JavaScript渲染问题的技术方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 获取网站源代码

response = requests.get("http://www.baidu.com")
# 获取网站源代码
print(response.text)

2. 打印网站的响应头

print(response.headers)
# 打印状态码 200表示正常访问了百度
print(response.status_code)

3. 添加响应头（写一个爬虫首先就是学会设置请求头header，这样才可以伪装成浏览器）

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
response = requests.get("http://www.baidu.com",headers = headers)

# 打印状态吗
print(response.status_code)

4. 抓取图片并保存（response.content返回为十六进制，以二进制写入到文件中）

# 抓取图片信息
response = requests.get("https://www.baidu.com/img/bd_logo1.png?where=super")
# 获取响应体的二进制格式
print(response.content)
# 将图片写入文件
with open("1.gif","wb") as f:
    f.write(response.content)

5. 解决JS渲染问题（Ajax动态加载问题）

from selenium import webdriver
# 模拟浏览器
driver = webdriver.Chrome()
driver.get("http://m.weibo.com")
driver.get("http://www.taobao.com")
# 获取解决JS渲染问题后的源代码（解决Ajax问题）
print(driver.page_source)