原创 | Char
公众号 | IT武库
爬虫一直是获取数据的重要方法,而以数据作为驱动的大模型技术,一方面对爬虫技术提出了更多要求,一方面也促进了爬虫技术的发展。Firecrawl就是一个在这样的背景下,诞生的开源爬虫项目。
Firecrawl可以将整个网站转换为能直接作为 LLM 训练语料的 markdown 或结构化数据,具有强大的抓取、爬取和数据提取能力。用户可以通过 API 使用它,包括使用 Crawling 功能爬取 URL 及所有可访问的子页面,使用 Scraping 功能抓取 URL 并获取指定格式的内容,使用 Map 功能获取网站的 URL,使用 LLM Extraction 功能从抓取的页面中提取结构化数据等。此外,它还提供了 Python SDK 和 Node SDK,方便开发者在不同语言中使用。该项目仍处于早期开发阶段,部分功能可能尚未完全准备好,但可以在本地运行。在使用时,用户需要遵守网站的政策和适用的隐私政策及使用条款,默认情况下 Firecrawl 会尊重网站的 robots.txt 文件中的指令。该项目主要遵循 AGPL - 3.0 许可证,部分组件遵循 MIT 许可证。
Firecrawl提供了一个线上运行环境:Playground - Firecrawl,笔者在这里尝试爬取了优快云的首页。由于需要注册账号才能爬取全部页面,这次实验只爬取了首页和首页上的4个子页面。以下是本次爬取效果:
优快云站点首页