GitHub:https://github.com/unclecode/crawl4ai
更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI
Crawl4AI旨在让网页爬取和数据提取变得简单而高效。无论构建复杂的 AI 应用程序还是增强大语言模型,Crawl4AI 都能提供简化工作流程所需的工具。凭借完全的异步支持,Crawl4AI 可确保爬取任务快速、可靠且可扩展。

主要功能
-
📝 Markdown 生成
- 🧹 Clean Markdown:生成具有准确格式的干净、结构化的 Markdown。
- 🎯 Fit Markdown:基于启发式的过滤,去除噪声和不相关的部分,实现 AI 友好的处理。
- 🔗 引文和参考文献:将页面链接转换为带有清晰引文的编号参考文献列表。
- 🛠️ 自定义策略:用户可以根据特定需求创建自己的 Markdown 生成策略。
- 📚 BM25 算法:采用基于 BM25 的过滤来提取核心信息和删除不相关的内容。
-
📊 结构化数据提取
- 🤖 LLM 驱动的提取:支持所有 LLM(开源和专有)进行结构化数据提取。
- 🧱 分块策略:为目标内容处理实施分块(基于主题、正则表达式、句子级别)。
- 🌌 余弦相似度:根据用户查询查找相关内容块以进行语义提取。
- 🔎 基于 CSS 的提取:使用 XPath 和 CSS 选择器快速提取基于架构的数据。
- 🔧 Schema Definition:定义用于从重复模式中提取结构化 JSON 的自定义 Schema。
-
🌐 浏览器集成
- 🖥️ Managed Browser:使用具有完全控制权的用户拥有的浏览器,避免机器人检测。
- 🔄 远程浏览器控制:连接到 Chrome 开发者工具协议以进行远程大规模数据提取。
- 👤 Browser Profiler:使用保存的身份验证状态、Cookie 和设置创建和管理持久性配置文件。
- 🔒 会话管理:保留浏览器状态并将其重新用于多步骤爬网。
- 🧩 代理支持: 通

最低0.47元/天 解锁文章
473

被折叠的 条评论
为什么被折叠?



