【MCP工具介绍】Fetch网页内容抓取

最新推荐文章于 2025-10-24 08:35:09 发布

原创最新推荐文章于 2025-10-24 08:35:09 发布 · 2.1k 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

该文章已生成可运行项目，

获取 MCP 服务器

一个提供网页内容抓取功能的模型上下文协议服务器。此服务器使大型语言模型能够从网页中检索和处理内容，并将 HTML 转换为 markdown 以便更容易地使用。

获取工具会截断响应，但通过使用 start_index 参数，您可以指定从何处开始提取内容。这让模型可以分块读取网页，直到找到所需的信息。

可用工具

fetch - 从互联网上抓取一个 URL 并将其内容作为 markdown 提取。
- url (字符串, 必需): 要抓取的 URL
- max_length (整数, 可选): 返回的最大字符数 (默认: 5000)
- start_index (整数, 可选): 从此字符索引开始提取内容 (默认: 0)
- raw (布尔值, 可选): 获取未经 markdown 转换的原始内容 (默认: false)

提示

fetch
- 抓取一个 URL 并将其内容作为 markdown 提取
- 参数:
  - url (字符串, 必需): 要抓取的 URL

安装

可选项：安装 node.js，这将导致 fetch 服务器使用一种更健壮的 HTML 简化器。

使用 uv（推荐）

当使用 uv 时不需要特定的安装步骤。我们将使用 uvx 直接运行 mcp-server-fetch。

使用 PIP

或者，您可以通过 pip 安装 mcp-server-fetch：

pip install mcp-server-fetch

安装后，您可以使用以下命令以脚本方式运行它：

python -m mcp_server_fetch

配置

为 Claude.app 配置

在您的 Claude 设置中添加：

使用 uvx

使用 docker

使用 pip 安装

自定义 - robots.txt

默认情况下，如果请求来自模型（通过工具），则服务器会遵守网站的 robots.txt 文件；但如果请求是由用户发起的（通过提示），则不会遵守。通过在配置中的 args 列表里添加参数 --ignore-robots-txt 可以禁用这一行为。

自定义 - 用户代理

默认情况下，根据请求是否来自模型（通过工具）或由用户发起（通过提示），服务器将使用以下用户代理

ModelContextProtocol/1.0 (Autonomous; +https://github.com/modelcontextprotocol/servers)

或

ModelContextProtocol/1.0 (User-Specified; +https://github.com/modelcontextprotocol/servers)

通过在配置中的 args 列表里添加参数 --user-agent=YourUserAgent 可以自定义用户代理。

调试

您可以使用 MCP 检查器来调试服务器。对于 uvx 安装：

npx @modelcontextprotocol/inspector uvx mcp-server-fetch

如果您已将包安装在特定目录中或正在开发该包：

cd path/to/servers/src/fetch
npx @modelcontextprotocol/inspector uv run mcp-server-fetch

贡献

我们鼓励贡献以帮助扩展和完善 mcp-server-fetch。无论您是想添加新工具、增强现有功能还是改进文档，您的输入都是宝贵的。

本文章已经生成可运行项目

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。