Dify工作流实战指南：如何用爬虫抓取公众号文章构建AI知识库！

最新推荐文章于 2025-09-26 15:13:56 发布

原创最新推荐文章于 2025-09-26 15:13:56 发布 · 1.3k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习 #搜索引擎 #计算机视觉 #AI #大模型

前言：知识库的价值与痛点在AI创作领域，知识库作为核心组件，能有效解决AI幻觉问题（确保输出内容严格遵循知识库依据）。但实际操作中，许多用户面临内容录入的难题：

- 腾讯的IMA知识库虽支持公众号文章快速导入，但受限于功能设计，仅适用于基础问答场景

- 人工整理知识库效率低下，难以满足业务需求本文将以教培行业为例，演示如何通过Dify工作流实现：

1. 自动抓取优质公众号内容

2. 智能处理并存入知识库

3. 基于知识库生成高质量教学内容## 准备工作（3个关键步骤）

1. 创建知识库- 在Dify控制台新建空白知识库

-记录知识库ID（在浏览器地址栏中，位于`datasets`和`documents`路径段之间的值）

2. 生成API密钥

- 进入「知识库」→「API」→「API密钥」创建新密钥

- ⚠ 注意：该密钥拥有全知识库操作权限

- 查看「通过文本创建文档」的API请求规范文档

### 3. 集成Firecrawl爬虫服务
1. 从插件市场安装Firecrawl

2. 注册账号获取API Key

3. 注意：免费版可能限制每日抓取次数或页面数量

实战演练：单篇文章抓取

逻辑是从用户的输入内容中提取出网址，接着用Firecrawl去读取页面内容，再用AI提炼出标题和正文，最后存入知识库。

以下就是完整的工作流：

关键技术点：

Firecrawl应对反爬机制：配置浏览器User-Agent头

headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}

参数提取器：目的是从返回的内容中把标题和正文识别出来。

注意在提示词中要让AI确保还原完整的内容，不要去做任何改动。

内容转义处理：

因为我们要走HTTP请求，对于内容的格式是特别敏感的，防止JSON格式错误。

这里我们直接插入一段代码，把里面的几乎所有特殊符号都做处理。

def main(text: str) -> dict:    return {        'content': text.replace('\\', '\\\\').replace('"', '\\"').replace('\n', '\\n').replace('\r', '\\r').replace('\t', '\\t')    }

HTTP请求：存进知识库

有了内容后，就可以新建HTTP请求节点。

这里有个小技巧，就是把前面API文档里的cURL示例，复制过来，能自动填入

然后点上面的**「鉴权API-Key」**

按下图把知识库的密钥加进去。

测试验证：输入目标文章URL，检查知识库是否成功存入

这就存进知识库了！

4.AI大模型学习路线

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述