使用 WebBaseLoader 高效加载网页文本：指南与示例

最新推荐文章于 2025-06-30 10:39:57 发布

原创最新推荐文章于 2025-06-30 10:39:57 发布 · 514 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python

使用 WebBaseLoader 高效加载网页文本：指南与示例

引言

在构建自然语言处理 (NLP) 应用程序时，能够有效地从网络页面中提取文本至关重要。WebBaseLoader 是一个强大的工具，它允许开发者从 HTML 网页轻松加载文本数据，并以可用于下游处理的文档格式输出。在这篇文章中，我们将探讨如何使用 WebBaseLoader 进行基础操作，并讨论一些高级特性如异步加载和代理使用方法。

主要内容

WebBaseLoader 概述

WebBaseLoader 是 langchain_community 包中的一个类，专注于提供从网页中提取文本的基本功能。它支持源文档的懒加载和原生异步支持。

功能一览

懒加载：可以逐页加载以减少内存占用。
异步支持：原生支持异步请求，提升加载效率。

设置与初始化

安装要求

在开始之前，确保安装 langchain_community 包：

%pip install -qU langchain_community

初始化

初始化 WebBaseLoader 对象并加载单个网页：

from langchain_community.document_loaders import WebBaseLoader

# 使用API代理服务提高访问稳定性
loader = WebBaseLoader("https://www.espn.com/")

# 加载文档
docs = loader.load()
print(docs[0].metadata)

多页面加载

可以传入一个页面列表以加载多个网页：

loader_multiple_pages = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
docs = loader_multiple_pages.load()

异步加载

通过异步请求加载多页面：

import nest_asyncio
nest_asyncio.apply()

# 设置每秒请求次数
loader = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
loader.requests_per_second = 1
docs = loader.aload()

使用代理

在某些情况下，使用代理可以帮助绕过IP封锁：

loader = WebBaseLoader(
    "https://www.walmart.com/search?q=parrots",
    proxies={
        "http": "http://{username}:{password}:@proxy.service.com:6666/",
        "https": "https://{username}:{password}:@proxy.service.com:6666/",
    }
)
docs = loader.load()

常见问题和解决方案

SSL 验证错误：在某些情况下，可能会遇到 SSL 验证错误。可以通过在请求参数中设置 verify 为 False 来解决。
```
loader.requests_kwargs = {'verify': False}
```
请求限制：增加 requests_per_second 可能导致服务器封锁请求，应谨慎行事。