FireCrawl,抓取网页变成Markdown

没错,这是一个可以抓取网页内容变成markdown文件的工具。

是给大模型构建知识库的一把好手。

它能够抓取单个网页,还能够根据关键词抓取搜索结果网页中的内容。

公众号算法美食屋后台回复关键词:源码,获取本文notebook源码。

核心代码逻辑:

0ce0f0404b09a5f6b613f2046ed0f20a.png

〇,WEB体验

可以在这个工具的网址直接用github账号登录注册使用。

https://www.firecrawl.dev/app/playground

在这个playground页面,丢进去你想抓取的url就可以抓取并下载结果。

每个月每个账号可以免费抓取500个网页页面。


如果你想要更多,很简单,给这个产品打钱 或者 注册多个账号(逃)~

此外,这个产品也是开源的,你也可以在本地部署一套。

bc34d860b65da96507b73c64bd76c304.png

二,Python抓取单网页

首先在这个页面获取api_key

https://www.firecrawl.dev/app/api-keys

然后安装它的Python接口库

pip install firecrawl-py

使用如下代码抓取:

93c4ba76750be8416ead5c9ad8c8cc21.png

6930c86e783a7ef22055ada2f9c958d9.png

三,Python搜索关键词

使用如下代码根据关键词获取页面

5ba0a6a61728d74986efdb2947d9f812.png

5198c3caa23982b9468da570dd9395e9.png

4b9b4a3e80d9f6d87bea3c4f38e553cd.png

### FireCrawl 爬虫使用教程 #### 安装与配置 为了开始使用 FireCrawl,首先需要安装相应的软件包。对于 Node.js 用户来说,可以通过 npm 来完成这一操作: ```bash npm install @mendable/firecrawl-js ``` 这一步骤会下载并安装 `@mendable/firecrawl-js` SDK 到项目中[^3]。 #### 初始化设置 一旦安装完毕,在 JavaScript 或 TypeScript 文件里引入该库,并创建一个新的实例来初始化 FireCrawl 对象: ```javascript const { FireCrawl } = require('@mendable/firecrawl-js'); // 创建新的 FireCrawl 实例 let firecrawl = new FireCrawl(); ``` 通过这种方式,能够快速启动一个基本的爬虫环境,准备好执行后续的任务。 #### 数据抓取与处理 FireCrawl 的核心功能之一是从指定网页上获取信息并将这些非结构化的 HTML 转换成易于使用的 JSON 格式的结构化数据。此过程不仅限于单一页面;它还支持遍历整个站点下的多个链接,从而实现更广泛的数据收集工作[^2]。 例如,如果想要从某个特定 URL 开始进行爬取,则只需调用相应的方法即可: ```javascript firecrawl.crawl('https://example.com', { depth: 1, // 设置爬行深度 }).then((data) => console.log(data)); ``` 这段代码将会访问给定的目标网址,并按照设定的最大递归层数(本例中为一层),依次读取各个子页的内容,最终返回整理后的结果集。 #### 应用场景拓展 除了基础的信息采集外,借助内置的大规模语言模型能力,FireCrawl 还能进一步解析复杂类型的在线资源,比如动态加载的文章片段或是嵌入式媒体文件等特殊元素。因此非常适合用于构建搜索引擎索引、训练机器学习算法以及其他依赖高质量外部输入的应用场合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值