网页归档爬虫伪装：User-Agent与请求头设置策略-优快云博客

网页归档爬虫伪装：User-Agent与请求头设置策略

【免费下载链接】ArchiveBox 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more... 项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox

在当今信息爆炸的时代，网页内容瞬息万变，对重要网页进行归档保存已成为许多个人和组织的刚需。然而，许多网站会对爬虫程序进行限制，导致归档工作困难重重。本文将深入探讨如何通过合理设置User-Agent（用户代理）与请求头，提升网页归档成功率，帮助您轻松应对各种反爬机制。

为什么需要爬虫伪装？

在进行网页归档时，目标网站可能会通过检测请求头信息来识别爬虫程序，并采取限制措施，如拒绝访问、返回错误页面或提供不完整内容。合理的爬虫伪装可以让归档工具模拟真实浏览器的行为，提高抓取成功率，获取更完整的网页内容。

常见反爬机制

User-Agent检测：网站通过检查请求头中的User-Agent字段来识别访问者身份，如果发现是爬虫程序的User-Agent，可能会拒绝提供服务。
请求频率限制：对来自同一IP地址的请求频率进行限制，防止爬虫过度访问。
验证码：当网站怀疑访问者是爬虫时，会要求输入验证码进行验证。
动态内容加载：使用JavaScript动态加载内容，使静态爬虫无法获取完整页面。

ArchiveBox中的请求头设置

ArchiveBox作为一款强大的开源网页归档工具，提供了灵活的请求头设置功能。通过配置User-Agent和其他请求头信息，可以有效模拟真实浏览器的访问行为。

User-Agent配置

在ArchiveBox中，User-Agent的配置可以在多个地方找到。最核心的配置来自ARCHIVING_CONFIG.USER_AGENT，该配置被多个插件引用。

例如，在archivebox/misc/util.py文件中，下载URL和获取头信息的函数都使用了ARCHIVING_CONFIG.USER_AGENT：

response = session.get(
    url,
    headers={'User-Agent': ARCHIVING_CONFIG.USER_AGENT},
    verify=ARCHIVING_CONFIG.CHECK_SSL_VALIDITY,
    timeout=timeout,
)

archivebox/misc/util.py

此外，各个爬虫插件也有自己的User-Agent配置，默认情况下它们会引用ARCHIVING_CONFIG.USER_AGENT：

Chrome插件：archivebox/pkgs/abx-plugin-chrome/abx_plugin_chrome/config.py

CHROME_USER_AGENT: str = Field(default=lambda: ARCHIVING_CONFIG.USER_AGENT)

Wget插件：archivebox/pkgs/abx-plugin-wget/abx_plugin_wget/config.py

WGET_USER_AGENT: str = Field(default=lambda: ARCHIVING_CONFIG.USER_AGENT)

Mercury插件：archivebox/pkgs/abx-plugin-mercury/abx_plugin_mercury/config.py
```
MERCURY_USER_AGENT: str = Field(default=lambda: ARCHIVING_CONFIG.USER_AGENT)
```
SingleFile插件：archivebox/pkgs/abx-plugin-singlefile/abx_plugin_singlefile/config.py
```
SINGLEFILE_USER_AGENT: str = Field(default=lambda: ARCHIVING_CONFIG.USER_AGENT)
```

Curl插件：archivebox/pkgs/abx-plugin-curl/abx_plugin_curl/config.py

CURL_USER_AGENT: str = Field(default=lambda: ARCHIVING_CONFIG.USER_AGENT)

其他请求头设置

除了User-Agent，ArchiveBox还支持设置其他请求头信息。在archivebox/misc/util.py文件中，您可以看到请求头是一个字典，您可以根据需要添加其他字段：

headers={'User-Agent': ARCHIVING_CONFIG.USER_AGENT, 'Referer': 'https://example.com'}

archivebox/misc/util.py

自定义User-Agent策略

为了更好地伪装爬虫身份，我们可以自定义User-Agent。以下是一些常用的策略：

使用常见浏览器的User-Agent

模拟主流浏览器的User-Agent可以有效避免被网站识别为爬虫。例如：

Chrome：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36
Firefox：Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0
Safari：Mozilla/5.0 (Macintosh; Intel Mac OS X 12_0_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.1 Safari/605.1.15

随机切换User-Agent

为了避免被网站识别为同一爬虫，我们可以随机切换不同的User-Agent。可以维护一个User-Agent列表，每次请求时随机选择一个。

在ArchiveBox中，可以通过修改配置文件来实现这一功能。例如，在etc/ArchiveBox.conf.default中设置：

USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36,Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"

etc/ArchiveBox.conf.default

然后在代码中随机选择一个User-Agent：

import random

user_agents = ARCHIVING_CONFIG.USER_AGENT.split(',')
user_agent = random.choice(user_agents)
headers={'User-Agent': user_agent}

根据目标网站调整User-Agent

不同的网站可能对不同的浏览器有不同的兼容性和限制。因此，可以根据目标网站的特点，选择合适的User-Agent。例如，对于一些只兼容特定浏览器的网站，可以使用该浏览器的User-Agent。

高级请求头设置

除了User-Agent，还有其他一些请求头字段可以帮助我们更好地伪装爬虫身份：

Referer

Referer字段用于指示当前请求的来源页面。设置合理的Referer可以让请求看起来更像是从正常的网页跳转而来。

例如，在archivebox/misc/util.py中添加Referer头：

headers={
    'User-Agent': ARCHIVING_CONFIG.USER_AGENT,
    'Referer': 'https://www.google.com/'
}

Accept-Language

Accept-Language字段用于指示客户端可以接受的语言类型。设置该字段可以让网站返回对应语言的内容。

headers={
    'User-Agent': ARCHIVING_CONFIG.USER_AGENT,
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8'
}

Cookie

有些网站需要登录才能访问，或者会根据Cookie来识别用户。在ArchiveBox中，可以通过配置Cookie文件来使用Cookie：

if ARCHIVING_CONFIG.COOKIES_FILE and Path(ARCHIVING_CONFIG.COOKIES_FILE).is_file():
    cookie_jar = http.cookiejar.MozillaCookieJar(ARCHIVING_CONFIG.COOKIES_FILE)
    cookie_jar.load(ignore_discard=True, ignore_expires=True)
    for cookie in cookie_jar:
        session.cookies.set(cookie.name, cookie.value, domain=cookie.domain, path=cookie.path)

archivebox/misc/util.py

配置示例

下面是一个完整的ArchiveBox请求头配置示例，您可以根据自己的需求进行调整：

修改主配置文件

编辑etc/ArchiveBox.conf.default文件，设置User-Agent和其他请求头相关配置：

# User-Agent设置，多个User-Agent用逗号分隔
USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36,Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"

# Cookie文件路径
COOKIES_FILE="/path/to/cookies.txt"

# 是否检查SSL证书有效性
CHECK_SSL_VALIDITY=True

# 请求超时时间（秒）
TIMEOUT=30

etc/ArchiveBox.conf.default

插件配置

如果需要为特定插件单独设置User-Agent，可以修改对应插件的配置文件。例如，为Chrome插件设置特定的User-Agent：

编辑archivebox/pkgs/abx-plugin-chrome/abx_plugin_chrome/config.py：

CHROME_USER_AGENT: str = Field(default="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36")

archivebox/pkgs/abx-plugin-chrome/abx_plugin_chrome/config.py

总结

通过合理设置User-Agent和其他请求头信息，可以有效提高ArchiveBox的网页归档成功率。在实际使用中，建议根据目标网站的特点，灵活调整请求头配置。同时，要注意遵守网站的robots协议，不要过度访问网站，以免对网站造成不必要的负担。

关键要点

User-Agent是核心：选择合适的User-Agent可以有效避免被网站识别为爬虫。
随机切换更安全：随机切换不同的User-Agent可以降低被识别的风险。
配合其他请求头：Referer、Accept-Language、Cookie等请求头可以进一步提升伪装效果。
插件配置灵活：ArchiveBox的各个插件都支持单独配置User-Agent，可根据需求进行调整。

希望本文能够帮助您更好地理解和使用ArchiveBox的请求头设置功能，提高网页归档的效率和成功率。如果您有任何问题或建议，欢迎在评论区留言讨论。

网页归档爬虫伪装：User-Agent与请求头设置策略