GITHUB每日最佳:大模型时代的爬虫框架——Firecrawl(2024-09-08)

原创 | Char

公众号 | IT武库     

       爬虫一直是获取数据的重要方法,而以数据作为驱动的大模型技术,一方面对爬虫技术提出了更多要求,一方面也促进了爬虫技术的发展。Firecrawl就是一个在这样的背景下,诞生的开源爬虫项目。

        Firecrawl可以将整个网站转换为能直接作为 LLM 训练语料的 markdown 或结构化数据,具有强大的抓取、爬取和数据提取能力。用户可以通过 API 使用它,包括使用 Crawling 功能爬取 URL 及所有可访问的子页面,使用 Scraping 功能抓取 URL 并获取指定格式的内容,使用 Map 功能获取网站的 URL,使用 LLM Extraction 功能从抓取的页面中提取结构化数据等。此外,它还提供了 Python SDK 和 Node SDK,方便开发者在不同语言中使用。该项目仍处于早期开发阶段,部分功能可能尚未完全准备好,但可以在本地运行。在使用时,用户需要遵守网站的政策和适用的隐私政策及使用条款,默认情况下 Firecrawl 会尊重网站的 robots.txt 文件中的指令。该项目主要遵循 AGPL - 3.0 许可证,部分组件遵循 MIT 许可证。

        Firecrawl提供了一个线上运行环境:Playground - Firecrawl,笔者在这里尝试爬取了优快云的首页。由于需要注册账号才能爬取全部页面,这次实验只爬取了首页和首页上的4个子页面。以下是本次爬取效果:

优快云站点首页

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值