Dify工作流实战指南:如何用爬虫抓取公众号文章构建AI知识库!

前言:知识库的价值与痛点在AI创作领域,知识库作为核心组件,能有效解决AI幻觉问题(确保输出内容严格遵循知识库依据)。但实际操作中,许多用户面临内容录入的难题:

- 腾讯的IMA知识库虽支持公众号文章快速导入,但受限于功能设计,仅适用于基础问答场景

- 人工整理知识库效率低下,难以满足业务需求本文将以教培行业为例,演示如何通过Dify工作流实现:

1. 自动抓取优质公众号内容

2. 智能处理并存入知识库

3. 基于知识库生成高质量教学内容## 准备工作(3个关键步骤)

 1. 创建知识库- 在Dify控制台新建空白知识库

-记录知识库ID(在浏览器地址栏中,位于`datasets`和`documents`路径段之间的值)

 2. 生成API密钥

- 进入「知识库」→「API」→「API密钥」创建新密钥


- ⚠ 注意:该密钥拥有全知识库操作权限

- 查看「通过文本创建文档」的API请求规范文档

### 3. 集成Firecrawl爬虫服务
1. 从插件市场安装Firecrawl

2. 注册账号获取API Key

3. 注意:免费版可能限制每日抓取次数或页面数量

 实战演练:单篇文章抓取

逻辑是从用户的输入内容中提取出网址,接着用Firecrawl去读取页面内容,再用AI提炼出标题和正文,最后存入知识库。

以下就是完整的工作流:

关键技术点:

  • Firecrawl应对反爬机制:配置浏览器User-Agent头

    headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
    • 参数提取器:目的是从返回的内容中把标题和正文识别出来。

      注意在提示词中要让AI确保还原完整的内容,不要去做任何改动。

      • 内容转义处理:

      因为我们要走HTTP请求,对于内容的格式是特别敏感的,防止JSON格式错误。

      这里我们直接插入一段代码,把里面的几乎所有特殊符号都做处理。

        def main(text: str) -> dict:    return {        'content': text.replace('\\', '\\\\').replace('"', '\\"').replace('\n', '\\n').replace('\r', '\\r').replace('\t', '\\t')    }
          • HTTP请求:存进知识库

          有了内容后,就可以新建HTTP请求节点。

          这里有个小技巧,就是把前面API文档里的cURL示例,复制过来,能自动填入

          然后点上面的**「鉴权API-Key」**

          按下图把知识库的密钥加进去。

          • 测试验证:输入目标文章URL,检查知识库是否成功存入

          这就存进知识库了!

          4.AI大模型学习路线

          如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

          这份完整版的大模型 AI 学习和面试资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

          在这里插入图片描述

          这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

          请添加图片描述
          第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

          第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

          第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

          第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

          第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

          第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

          第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

          100套AI大模型商业化落地方案

          请添加图片描述

          大模型全套视频教程

          请添加图片描述

          200本大模型PDF书籍

          请添加图片描述

          👉学会后的收获:👈

          • 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

          • 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

          • 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

          • 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

          LLM面试题合集

          请添加图片描述

          大模型产品经理资源合集

          请添加图片描述

          大模型项目实战合集

          请添加图片描述

          👉获取方式:
          😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

          在这里插入图片描述

          评论
          添加红包

          请填写红包祝福语或标题

          红包个数最小为10个

          红包金额最低5元

          当前余额3.43前往充值 >
          需支付:10.00
          成就一亿技术人!
          领取后你会自动成为博主和红包主的粉丝 规则
          hope_wisdom
          发出的红包
          实付
          使用余额支付
          点击重新获取
          扫码支付
          钱包余额 0

          抵扣说明:

          1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
          2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

          余额充值