Python爬虫技术：设置headers和cookies

最新推荐文章于 2025-03-12 16:55:16 发布

代码逐梦人

最新推荐文章于 2025-03-12 16:55:16 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫技能晋升路线文章标签： python 爬虫开发语言

本文链接：https://blog.youkuaiyun.com/2503_90397640/article/details/145696910

版权

爬虫技能晋升路线专栏收录该内容

25 篇文章

订阅专栏

在 Python 爬虫中，设置headers和cookies是非常常见的操作，它们可以帮助你模拟浏览器行为，绕过一些网站的反爬机制，让请求看起来更像是正常用户的请求。下面将详细介绍如何在不同的 Python 库中设置headers和cookies。

1. 使用`requests`库

requests是 Python 中最常用的 HTTP 请求库，它提供了简洁的 API 来处理 HTTP 请求。

设置`headers`

python

import requests

# 定义headers
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 发送请求并设置headers
url = 'https://www.example.com'
response = requests.get(url, headers=headers)

# 打印响应内容
print(response.text)

在上述代码中，我们定义了一个headers字典，其中User-Agent字段用于模拟浏览器的身份。然后，我们使用requests.get()方法发送请求，并将headers作为参数传递给该方法。

设置`cookies`

python

import requests

# 定义headers
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 定义cookies
cookies = {'session_id': '1234567890'}

# 发送请求并设置headers和cookies
url = 'https://www.example.com'
response = requests.get(url, headers=headers, cookies=cookies)

# 打印响应内容
print(response.text)

在上述代码中，我们定义了一个cookies字典，其中包含一个名为session_id的 cookie。然后，我们使用requests.get()方法发送请求，并将headers和cookies作为参数传递给该方法。

2. 使用`selenium`库

selenium是一个用于自动化浏览器操作的库，它可以模拟用户在浏览器中的各种行为。

设置`headers`

在selenium中，无法直接设置headers，但可以通过使用ChromeOptions或FirefoxOptions来模拟一些浏览器的请求头信息。

python

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 创建ChromeOptions对象
chrome_options = Options()
chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3')

# 创建浏览器实例并设置options
driver = webdriver.Chrome(options=chrome_options)

# 打开网页
url = 'https://www.example.com'
driver.get(url)

# 打印页面源代码
print(driver.page_source)

# 关闭浏览器
driver.quit()

设置`cookies`

python

from selenium import webdriver

# 创建浏览器实例
driver = webdriver.Chrome()

# 打开网页
url = 'https://www.example.com'
driver.get(url)

# 定义cookies
cookies = {'name': 'session_id', 'value': '1234567890'}

# 添加cookie
driver.add_cookie(cookies)

# 刷新页面以应用cookie
driver.refresh()

# 打印页面源代码
print(driver.page_source)

# 关闭浏览器
driver.quit()

在上述代码中，我们使用selenium库来自动化浏览器操作。首先，我们创建了一个浏览器实例，然后打开了一个网页。接着，我们定义了一个 cookie，并使用driver.add_cookie()方法将其添加到浏览器中。最后，我们刷新页面以应用 cookie，并打印页面源代码。

通过以上方法，你可以在 Python 爬虫中设置headers和cookies，从而更好地模拟浏览器行为，提高爬虫的成功率。