Craw4AI：LLM友好的网页爬虫

最新推荐文章于 2025-11-21 14:14:15 发布

原创

最新推荐文章于 2025-11-21 14:14:15 发布 · 1.9k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #人工智能 #语言模型

GitHub：https://github.com/unclecode/crawl4ai

更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

Crawl4AI旨在让网页爬取和数据提取变得简单而高效。无论构建复杂的 AI 应用程序还是增强大语言模型，Crawl4AI 都能提供简化工作流程所需的工具。凭借完全的异步支持，Crawl4AI 可确保爬取任务快速、可靠且可扩展。

主要功能

📝 Markdown 生成
- 🧹 Clean Markdown：生成具有准确格式的干净、结构化的 Markdown。
- 🎯 Fit Markdown：基于启发式的过滤，去除噪声和不相关的部分，实现 AI 友好的处理。
- 🔗 引文和参考文献：将页面链接转换为带有清晰引文的编号参考文献列表。
- 🛠️ 自定义策略：用户可以根据特定需求创建自己的 Markdown 生成策略。
- 📚 BM25 算法：采用基于 BM25 的过滤来提取核心信息和删除不相关的内容。
📊 结构化数据提取
- 🤖 LLM 驱动的提取：支持所有 LLM（开源和专有）进行结构化数据提取。
- 🧱 分块策略：为目标内容处理实施分块（基于主题、正则表达式、句子级别）。
- 🌌 余弦相似度：根据用户查询查找相关内容块以进行语义提取。
- 🔎 基于 CSS 的提取：使用 XPath 和 CSS 选择器快速提取基于架构的数据。
- 🔧 Schema Definition：定义用于从重复模式中提取结构化 JSON 的自定义 Schema。
🌐 浏览器集成
- 🖥️ Managed Browser：使用具有完全控制权的用户拥有的浏览器，避免机器人检测。
- 🔄 远程浏览器控制：连接到 Chrome 开发者工具协议以进行远程大规模数据提取。
- 👤 Browser Profiler：使用保存的身份验证状态、Cookie 和设置创建和管理持久性配置文件。
- 🔒 会话管理：保留浏览器状态并将其重新用于多步骤爬网。
- 🧩 代理支持：通

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。