RAGFlow圣经(2):RAGFlow 架构设计

尼恩:LLM大模型学习圣经PDF的起源

在40岁老架构师 尼恩的读者交流群(50+)中,经常性的指导小伙伴们改造简历。

经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会,拿到了大厂机会。

2025年开始,尼恩一直在辅导小伙伴们做 AI 架构面试, 很多小伙伴 拿到了 Java + AI 架构offer ,比如下面的案例:

34岁无路可走,一个月翻盘,拿 3个架构offer,靠 Java+Al 逆天改命!!!

3年 程序媛 被裁, 25W-》40W 上岸, 逆涨60%。 Java+AI 太神了, 架构小白 2个月逆天改命

36岁/失业7个月/彻底绝望 。狠卷 3个月 Java+AI ,终于逆风翻盘,顺利 上岸

尼恩架构团队,通过 梳理一个《LLM大模型学习圣经》 帮助更多的人做LLM架构,拿到年薪100W, 这个内容体系包括下面的内容:

2. RAGFlow 项目整体架构设计

在尼恩社群中,很多小伙伴要求 深入学习一个 这个工业级的 RAG 框架 —— RAGFlow。

so, 尼恩团队的架构师们, 就写了新的系列,ragflow 圣经。

RAGFlow圣经(1):RAGFlow介绍和概念详解

RAGFlow圣经(2):RAGFlow 架构设计

RAGFlow圣经(3):RAGFlow 安装和调试指南

RAGFlow圣经(4):RAGFlow 数据解析与知识图谱

RAGFlow圣经(5):RAGFlow 对话处理与推理

RAGFlow圣经(6):RAGFlow 搜索原理与实现

RAGFlow圣经(7):RAGFlow 智能体原理与实现

RAGFlow圣经(8):RAGFlow 链路追踪

RAGFlow圣经(9):RAGFlow 监控

你有没有想过,现代化的图书馆是如何运作的?

当你走进一座智能图书馆,扫描书籍条码就能自动借阅,输入关键词就能找到相关资料,甚至还能和智能助手对话获取知识解答。

这一切看似神奇的功能背后,其实是一套精密的系统架构在默默运行。

RAGFlow 就像是这样一座现代化的智能图书馆,它不仅能存储和管理文档,更能深度理解文档内容,并通过智能对话为用户提供精准的答案。

在前一章中,我们了解了 RAGFlow 的核心概念——就像了解了图书馆的基本功能。现在,我们要深入"建筑内部",看看这个智能系统是如何设计和建造的。

想象一下,如果你要设计一座能处理数百万份文档、同时服务成千上万用户的智能图书馆,你会怎么设计?

  • 需要一个接待大厅处理用户请求
  • 需要专门的文档分析中心理解每份文档
  • 需要强大的检索系统快速找到相关信息
  • 需要智能对话区域与用户交流
  • 需要可靠的存储仓库保管所有资料

RAGFlow 的架构设计就是基于这样的现实需求。它采用了微服务架构——就像图书馆的不同功能区域,每个区域都有专门的工作人员和设备,各司其职又协调配合。通过本章的深入分析,你将理解 RAGFlow 如何通过精巧的架构设计,实现一个高性能、高可用的企业级 RAG 平台。

2.1 架构设计理念 - 像设计现代化图书馆一样思考

2.1.1 微服务架构选择 - 就像专业化的分工协作

想象一下现代医院的运作方式:挂号处、化验科、影像科、各个专科门诊都有自己的专业团队,但它们通过完善的流程协调配合。RAGFlow 的架构设计也是这个思路:

为什么选择微服务?

(1) 专业化分工:就像医院里的科室,每个服务都专注于自己最擅长的事情

  • deepdoc/ 专门负责深度文档理解,就像影像科专门看片子
  • rag/ 负责检索增强生成,就像内科医生综合各种检查结果诊断
  • agent/ 负责智能体工作流,就像全科医生协调各个专科

(2) 独立扩展能力:文档解析很耗 CPU?单独给它加机器。检索压力大?给检索服务单独扩容

(3) 技术选择自由:Python 写 AI 算法,JavaScript 做前端交互,Go 做高并发服务

(4) 故障隔离:一个服务挂了不会让整个系统瘫痪,就像一个科室停诊不影响其他科室

让我们看看 RAGFlow 项目的实际目录结构,就像参观图书馆的各个功能区域:

2.1.2 RAGFlow 项目目录结构详解


ragflow/
├── 📁 api/                    # API网关和前端服务 (像图书馆的接待大厅)
│   ├── apps/                  # 各个业务模块的API接口
│   │   ├── conversation_app.py # 对话管理接口
│   │   ├── dataset_app.py     # 知识库管理接口
│   │   ├── document_app.py    # 文档管理接口
│   │   ├── file_app.py        # 文件上传接口
│   │   ├── llm_app.py         # 大模型配置接口
│   │   └── user_app.py        # 用户管理接口
│   ├── db/                    # 数据库操作层
│   │   ├── db_models.py       # 数据模型定义
│   │   └── services/          # 业务逻辑服务
│   ├── ragflow_server.py      # 主服务器入口
│   └── settings.py            # API服务配置
│
├── 📁 rag/                    # RAG核心引擎 (像图书馆的智能检索系统)
│   ├── app/                   # RAG业务逻辑
│   │   ├── retrieval.py       # 检索逻辑
│   │   ├── generator.py       # 生成逻辑
│   │   └── qa.py              # 问答处理
│   ├── flow/                  # 工作流管理
│   ├── llm/                   # 大模型适配器
│   │   ├── chat_model.py      # 对话模型封装
│   │   ├── embedding_model.py # 嵌入模型封装
│   │   └── rerank_model.py    # 重排序模型封装
│   ├── nlp/                   # 自然语言处理工具
│   │   ├── rag_tokenizer.py   # 分词器
│   │   └── search.py          # 搜索算法
│   └── utils/                 # 工具函数
│
├── 📁 deepdoc/               # 深度文档理解引擎 (像图书馆的文档分析中心)
│   ├── parser/               # 各种文档解析器
│   │   ├── excel_parser.py   # Excel解析器
│   │   ├── pdf_parser.py     # PDF解析器
│   │   ├── word_parser.py    # Word解析器
│   │   └── presentation_parser.py # PPT解析器
│   └── vision/               # 视觉理解模块
│       ├── layout_recognizer.py # 版面识别
│       ├── ocr.py               # 光学字符识别
│       └── table_recognizer.py  # 表格识别
│
├── 📁 agent/                 # Agent智能体系统 (像图书馆的AI助手)
│   ├── component/            # 智能体组件
│   │   ├── begin.py          # 开始节点
│   │   ├── retrieval.py      # 检索节点
│   │   ├── generate.py       # 生成节点
│   │   └── rewrite.py        # 重写节点
│   ├── tools/                # 外部工具集成
│   │   ├── bing_search.py    # 必应搜索
│   │   ├── google_search.py  # 谷歌搜索
│   │   ├── wikipedia.py      # 维基百科
│   │   └── arxiv.py          # 学术论文搜索
│   └── templates/            # 工作流模板
│
├── 📁 web/                   # 前端用户界面 (像图书馆的用户终端)
│   ├── src/
│   │   ├── components/       # React组件
│   │   ├── pages/            # 页面组件
│   │   ├── hooks/            # React Hooks
│   │   └── utils/            # 前端工具函数
│   ├── package.json          # 前端依赖配置
│   └── .umirc.ts            # UmiJS配置
│
├── 📁 docker/                # 容器化部署 (像图书馆的基础设施)
│   ├── docker-compose.yml        # 主服务编排
│   ├── docker-compose-base.yml   # 基础服务编排
│   ├── .env                       # 环境变量配置
│   ├── service_conf.yaml.template # 服务配置模板
│   └── nginx/                     # Nginx反向代理配置
│
├── 📁 conf/                  # 配置文件 (像图书馆的管理制度)
│   ├── service_conf.yaml    # 主服务配置
│   └── logging.yml           # 日志配置
│
├── 📁 sandbox/               # 代码执行沙箱 (像图书馆的安全实验室)
│   ├── executor_manager.py  # 执行器管理
│   └── runtime/              # 各语言运行时
│
├── 📁 test/                  # 测试代码
├── 📁 docs/                  # 项目文档
├── pyproject.toml            # Python项目配置
├── Dockerfile                # Docker镜像构建文件
└── README.md                 # 项目说明

2.1.3 分层架构设计 - 像盖楼一样层次分明

RAGFlow 的架构就像一栋设计精良的办公楼,每一层都有明确的功能定位:

2.1.4 云原生设计 - 为现代部署而生

现在的应用就像乐高积木,要能够灵活组装、随时拆换。RAGFlow 从设计之初就考虑了这些现代化需求:

容器化就像标准化的货柜

  • 所有服务都打包成 Docker 镜像,就像把货物装进标准货柜
  • 不管是在开发环境、测试环境还是生产环境,都能一致地运行

配置外部化就像换衣服

健康检查就像体检

  • 每个服务都有健康检查接口,系统能及时发现问题
  • 不健康的服务会被自动重启或替换

2.2 实际架构分析 - 基于 Docker Compose 的现代化部署

理解 RAGFlow 架构最直观的方式就是分析它的 Docker Compose 配置。就像看一份现代化建筑的设计图纸,这些文件定义了构成 RAGFlow 系统的所有服务容器以及它们之间的依赖关系。

2.2.1 容器化架构总览

通过分析实际的 docker-compose.ymldocker-compose-base.yml 文件,我们可以看到 RAGFlow 的完整部署架构:

2.2.2 主要服务组件详解

让我们深入了解每个服务组件,就像详细了解一座现代化图书馆的各个部门:

🚀 ragflow-server (API 网关与前端服务)

这就像图书馆的接待大厅和客服中心,是用户与 RAGFlow 系统交互的唯一入口。

核心职责

  • 处理所有 HTTP 请求和 WebSocket 实时连接
  • 用户身份认证和权限管理
  • 提供 RESTful API 服务
  • 前端静态资源服务

实际配置(根据 docker-compose.yml):


ragflow:
  image: ${
   
   RAGFLOW_IMAGE} # 使用环境变量指定镜像版本
  container_name: ragflow-server
  ports:
    - ${
   
   SVR_HTTP_PORT}:9380 # 主 HTTP 服务端口
    - 80:80 # 标准 HTTP 端口
    - 443:443 # HTTPS 端口
    - 9382:9382 # MCP 服务端口
  volumes:
    - ./ragflow-logs:/ragflow/logs # 日志目录
    - ./nginx/ragflow.conf:/etc/nginx/conf.d/ragflow.conf # Nginx 配置
    - ./service_conf.yaml.template:/ragflow/conf/service_conf.yaml.template

代码结构

📊 MySQL 8.0.39 (主数据库)

就像图书馆的主要目录系统,存储所有关键的结构化数据。

存储内容:用户账户、知识库元数据、文档元数据、对话历史、系统配置

实际配置


mysql:
  image: mysql:8.0.39
  command: --max_connections=1000 --character-set-server=utf8mb4
  environment:
    - MYSQL_ROOT_PASSWORD=${
   
   MYSQL_PASSWORD}
  healthcheck:
    test: ["CMD", "mysqladmin", "ping", "-h", "localhost"]

🔍 Elasticsearch 8.11.0 (检索引擎)

就像图书馆的智能检索系统,能够快速找到相关内容。

存储内容:文档分块文本、文本向量嵌入、全文检索索引、语义相似性检索索引

🟥 Redis/Valkey 8 (缓存系统)

就像图书馆的快速借阅区,存放经常被访问的热门信息。

存储内容:用户会话状态、API 访问频率限制、暂时计算结果缓存、分布式锁和任务队列

📰 MinIO (对象存储)

就像图书馆的大型仓库,存放所有的实体文件和多媒体资料。

存储内容:原始文档文件、处理后的文本文件、图片和多媒体文件、备份和导出数据

2.2.3 数据流转分析 - 一份文档的奇妙之旅

想象一下,当你在图书馆上传一份 PDF 文档时,它会经历一段怎样的奇妙之旅呢?让我们跟随一份文档的完整流程:

这个流程就像一本书在图书馆的完整生命周期:从进馆登记、分类编目、上架存放,到最终被读者查找和阅读。每一步都经过精心设计,确保信息能够被准确理解和快速检索。

2.3 核心模块深度剥析 - 深入各个专业部门

现在让我们走进 RAGFlow 的各个“专业部门”,看看它们是如何各司其职的。

2.3.1 📄 DeepDoc 深度文档理解引擎

这就像图书馆的专业文档分析师,能够理解各种复杂文档的结构和内容。

模块位置deepdoc/ 目录

核心能力

解析器 支持格式 核心功能
PDF 解析器 PDF OCR 文字识别、版面分析、表格提取
Word 解析器 DOCX/DOC 样式保持、内嵌对象处理
Excel 解析器 XLSX/XLS 表格结构解析、数据类型推断
PPT 解析器 PPTX/PPT 幻灯片内容提取、图文结合

智能分块策略

  • 语义分块:按照语义逻辑切分,保持内容的完整性
  • 结构分块:基于文档结构(标题、段落、表格)进行切分
  • 动态分块:根据内容复杂度动态调整分块大小

2.3.2 🔍 RAG 检索增强生成引擎

这就像图书馆的智能检索系统和知识顾问,能够精准找到相关信息并综合生成答案。

模块位置rag/ 目录

检索策略组合

多维度检索算法

(1) 关键词全文检索:传统 BM25 算法,快速匹配关键词

(2) 语义向量检索:基于 Embedding 的语义相似性匹配

(3) 混合检索:结合多种算法,取优补短

(4) 重排序机制:使用专门的排序模型优化结果

2.3.3 🤖 RAG 的Agent 智能体系统

这就像图书馆的专业研究员,能够根据复杂问题设计研究方案,调用各种工具和资源。

模块位置agent/ 目录

工作流组件

组件类型 功能描述 应用场景
开始节点 工作流入口,接收用户输入 所有工作流
检索节点 从知识库检索相关信息 知识问答
生成节点 调用大模型生成内容 文本生成
工具节点 调用外部 API 和工具 信息查询
条件节点 根据条件判断流程走向 复杂逻辑

可集成工具

  • 搜索引擎:Google、必应、百度等
  • 学术资源:arXiv、学术搜索等
  • 知识库:维基百科、百度百科等
  • 计算工具:代码执行、数学计算等

2.3.4 🌐 Web 前端用户界面

这就像图书馆的现代化用户终端,提供直观友好的操作界面。

模块位置web/ 目录

技术栈

  • 框架:React 18 + UmiJS 4
  • 状态管理:Redux Toolkit + React Query
  • UI 组件:Antd 5.x
  • 样式方案:Tailwind CSS
  • 类型检查:TypeScript

核心功能模块

功能模块 主要页面 核心特性
知识库管理 知识库列表、创建、设置 文档上传、分块预览、状态监控
文档管理 文档列表、详情、编辑 批量上传、解析进度、错误处理
对话问答 聊天界面、历史记录 流式响应、引用源显示、多轮对话
Agent 工作流 可视化编辑器、调试 拖拽式设计、实时执行、日志查看
系统管理 用户管理、模型配置 角色权限、API 配置、监控看板

2.4 技术亮点与创新特性

2.4.1 多租户架构设计

就像一座现代化商业大厅,能同时服务多个不同的租户,但每个租户的数据和资源都是完全隔离的。

数据隔离策略

  • 数据库级别
一、课程优势本课程有陈敬雷老师的清华大学出版社配套新书教材《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)。配套书籍京东自营地址:https://item.jd.com/15073742.html新书配合此实战课程结合学习,一静一动,互补高效学习!本课程由互联网一线知名大牛陈敬雷老师全程亲自授课,技术前沿热门,是真正的互联网工业级实战项目。二、课程简介GPT 多模态大模型、AI Agent 智能体、DeepSeek、Dify、扣子 Coze、RAG、MCP、GraphRAG、LlamaIndex、RAGFlow…… 这些 AI 圈前沿技术频繁刷屏,却让你困在碎片化信息、原理模糊、落地无门的困境里?想系统掌握从技术原理→开源框架实操→企业级落地的全链路能力,真正把 AI 技术变成可复用的生产力? 「大模型 RAG、AI 智能体、开源框架及 DeepSeek 大模型全链路操作实战课」专为你打造!课程从基础到进阶,层层递进拆解 AI 核心技术,覆盖RAG 全流程优化、多平台智能体开发、三大开源框架(RAGFlow/LlamaIndex/GraphRAG)实践、DeepSeek 企业级落地等核心板块,帮你彻底摆脱 “只会看不会做” 的窘境,从 0 到 1 掌握 AI 技术落地的硬本领。课程核心亮点:全链路覆盖,从 “技术认知” 到 “项目落地”技术维度全:涵盖 RAG 检索增强、AI Agent 智能体、多模态工作流、MCP 协议、三大开源框架(RAGFlow/LlamaIndex/GraphRAG)、DeepSeek 大模型微调与部署,覆盖 AI 应用核心技术栈。实战场景足:从 “文档知识库搭建、智能客服工作流” 到 “多智能体协作、工业场景智能体开发”,再到 “DeepSeek 大模型企业级部署”,每个知识点配套真实业务场景实操。开源框架深:深度解析 RAGFlow、LlamaIndex、GraphRAG 三大开源框架的技术原理与代码实践,让你既能 “懂原理”,又能 “改源码、做定制”。课程模块详解:分层递进,学完就能落地项目第一章:大模型 RAG 及 AI 智能体全链路 —— 从技术原理到自主 Agent 实操AI Agent 认知与核心技术:深度拆解 AI Agent 定义、角色与底层技术逻辑,帮你建立 “智能体能做什么、怎么工作” 的清晰认知;RAG 全流程实战:从检索增强生成的落地技巧、技术架构,到分块 / 矢量化 / 搜索索引 / 重排序等核心环节实操,再到 Agent 与 RAG 的融合、响应合成器设计,手把手教你 RAG 技术从 “理论” 到 “项目” 的转化;向量数据库全覆盖:Faiss、Chroma、Pinecone、Milvus 四大向量数据库的技术原理 + 代码实践,结合 “企业私有数据知识问答、多轮对话系统” 案例,让你掌握 RAG 数据层核心能力;场景化智能体开发:自主规划 Agent 操作、图文报告智能体开发,直接落地 “智能体自主决策、多模态内容生成” 等前沿应用。第二章:扣子 Coze 平台操作实战 ——RAG+Agent + 多模态,快速落地 AI 应用知识库与工作流核心:从文档 / 表格知识库搭建(含 NL2SQL、ChatBI 技术),到RAG 智能客服、知识问答助手从 0 到 1 开发,再到任务 / 对话工作流对比与实操,解决 “知识管理难、AI 对话不精准” 的痛点;多模态与低代码拓展:多模态大模型工作流拆解、文生图 / 文生视频 / 照片知识库实操,以及扣子 Coze 低代码建站,让你快速落地 “内容创作、智能网站” 等创新应用;多智能体协作:Multi-Agents 协作实战,教你搭建 “多智能体分工协作” 的复杂系统,赋能更高效的业务自动化。第三章:Dify 平台操作实战 —— 从环境搭建到多场景智能体落地平台基础与架构:Dify 平台Docker/WSL 环境搭建、源码安装与核心架构拆解,让你吃透平台底层逻辑;大模型与插件集成:集成 DeepSeek、通义千问等大模型底座,配置 Agent 策略与 MCP 插件,拓展平台 AI 能力边界;全功能与场景化开发:平台整体功能操作、知识库管理、智能客服 / 预测类 AI 智能体开发,以及工业场景智能制造智能体落地,覆盖 “通用 + 垂直” 多类业务场景;代码执行与工作流:Dify 代码执行节点环境配置、AI 智能体工作流从 0 到 1 开发,打通 “代码能力 + 智能体自动化” 的全流程。第四章:MCP 协议代码开发实践 —— 打通大模型上下文数据链路MCP Server 开发:服务器发送事件(SSE)、可流式传输 HTTP(StreamableHttp)的代码实践,掌握实时数据交互核心技术;MCP Client 与平台集成:MCP Client 开发,以及与 Cherry Studio、Dify 平台的集成,实现 “客户端 - 服务器 - 应用平台” 的全链路数据打通。第五章:DeepSeek 大模型企业应用落地 —— 从部署到微调的全流程本地部署与自托管:Ollama 框架详解、DeepSeek 大模型本地部署全流程,Open WebUI 自托管 AI 平台功能与应用,解决 “数据隐私、云端依赖” 问题;模型微调与优化:基于 Unsloth 的 DeepSeek 训练微调、DeepSeek-R1 训练微调代码实践、模型文件全解析,让你掌握 “大模型适配垂直场景” 的核心技能;企业级落地:本地部署运行 DeepSeek-R1 满血版大模型,直接支撑企业级 AI 应用的高性能需求。第六章:RAG 项目落地优化策略 —— 攻克实战痛点的 12 项策略从文档预处理、文本分块、向量化,到元数据优化、多级索引、查询改写,再到重排模型、提示词优化,12 项优化策略覆盖 RAG 落地全流程,教你解决 “检索不准、速度慢、大模型输出差” 等核心痛点,让 RAG 项目真正 “好用、能用、落地顺畅”。第七章:开源 RAGFlow 框架实践 —— 检索增强的高效工具链原理与部署:RAGFlow 技术原理与系统架构解析,多环境安装部署与整体功能操作,为实操筑牢基础;场景化应用:知识库构建、聊天助手开发、智能体工作流搭建,快速落地 “知识问答、流程自动化” 等场景,体验 RAGFlow 在检索增强中的高效性。第八章:开源 LlamaIndex 框架实践 —— 大模型数据连接的核心利器技术与代码:LlamaIndex 技术原理与系统架构拆解,多源数据加载、索引创建、大模型集成的代码实战,让你掌握 “打破大模型数据孤岛” 的核心工具。第九章:微软开源 GraphRAG 实践 —— 图结构 + RAG 的前沿技术解析 GraphRAG“图数据结构 + 检索增强生成” 的创新技术原理,通过实战案例演示图构建、知识图谱与 RAG 融合、检索增强调优,为大模型引入 “图级知识关联与推理” 能力,拓展复杂知识场景的应用边界。为什么选择这门课程?四大核心优势全链路覆盖,技术无死角:从 RAG、AI Agent、多模态,到三大开源框架、DeepSeek 大模型,覆盖 AI 应用从 “底层技术” 到 “企业落地” 的全链路知识。实战驱动,学完即能用:每个知识点配套代码实践、场景案例,从 “环境搭建、功能操作” 到 “项目开发、优化策略”,全程落地导向,避免 “纸上谈兵”。聚焦开源,贴合行业趋势:深度拆解 RAGFlow、LlamaIndex、GraphRAG 等开源框架,契合企业 “基于开源做定制、降本提效” 的技术选型趋势。作者权威,内容经检验:作者陈敬雷深耕 AI 领域多年,内容基于《GPT 多模态大模型与 AI Agent 智能体》理论沉淀,结合大量企业级项目实践经验,理论与实战深度融合。 无论你是 AI 新手想系统入门,还是从业者想突破技术瓶颈、落地 AI 项目,这门课都能帮你精准卡位 AI 技术浪潮,把 “前沿技术” 变成 “可落地的生产力”。三、老师介绍陈敬雷  充电了么创始人,CEO兼CTO陈敬雷,北京充电了么科技有限公司创始人,CEO兼CTO,十几年互联网从业经验,曾就职于用友网络、中软集团、凡客诚品、唯品会、猎聘、人民日报(灵思云途)、北京万朝科技,曾任架构师、首席技术官、首席科学家等职务,对业务领域B端、C端、电商、职场社交招聘、内容文娱、营销行业都有着丰富的经验,在技术领域,尤其在大数据和人工智能方向有丰富的算法工程落地实战经验,其中在猎聘任职期间主导的推荐算法系统项目获得公司优秀项目奖,推荐效果得到5倍的提升。此外,陈敬雷著有清华大学出版社四本人工智能书籍,分别是《分布式机器学习实战》《自然语言处理原理与实战》《GPT多模态大模型与AI Agent智能体》《DeepSeek大模型与具身智能实践》,颇受好评。同时陈敬雷还是知名大数据人工智能讲师,研发了上百门课程,总计有30万学员。四、《GPT多模态大模型与AI Agent智能体》书籍配套视频课程介绍:陈敬雷老师的京东自营书名标题: GPT多模态大模型与AI Agent智能体(跟我一起学人工智能)《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。五、配套书籍目录:第1章 大模型技术原理1.1 大模型技术的起源、思想1.2 基于Transformer的预训练语言模型1.2.1 编码预训练语言模型1.22 解码预训练语言模型1.2.3 基于编解码架构的预训练语言模型1.3 提示学习与指令微调1.3.1 提示学习1.3.2 指令微调1.4 人类反馈强化学习1.4.1 强化学习1.4.2 PPO算法1.4.3 大模型人类反馈强化学习对齐1.5 GPT智能涌现原理与AGI通用人工智能1.5.1 什么是智能涌现1.5.2 思维链1.5.3 上下文学习能力1.5.4 指令理解1.5.5 通用人工智能第2大模型训练及微调2.1 大模型训练概述22 分布式训练的并行策略22.1 数据并行222 模型并行22.3 混合并行22.4 并行计算框架2.3 预训练模型的压缩2.3.1 模型压缩方案概述2.3.2 结构化模型压缩策略2.3.3 非结构化模型压缩策略2.3.4 8位/4位量化压缩实战2.4 大模型微调方法2.4.1 Prefix Tuning微调2.4.2 P-Tuning V1微调2.4.3 P-Tuning V2微调2.4.4 LoRA微调2.4.5 QLoRA微调2.5 基于旋转位置编码RoPE的长文本理解2.5.1 RoPE技术原理2.5.2 RoPE关键特性第3章 主流大模型3.1 国内大模型3.1.1 智谱清言ChatGLM3.1.2 百川智能3.1.3 百度文心一言3.1.4 阿里巴巴通义千问3.1.5 腾讯混元3.1.6 华为盘古3.1.7 360智脑3.1.8 科大讯飞星火3.1.9 智源悟道大模型3.1.10 月之暗面Kimi3.1.11 复旦大学MOSS3.1.12 零一万物3.1.13 字节跳动豆包大模型3.2 国外大模型3.2.1 OpenAI GPT-4o3.22 Meta LLaMA3.2.3 Anthropic Claude3.2.4 谷歌Gemini和开源Gemma3.2.5 Mistral Large3.2.6 xAI Grok3.3 垂直类大模型3.3.1 HuatuoGPT3.3.2 BianQue3.3.3 BenTsao3.3.4 XrayGLM3.3.5 DoctorGLM3.3.6 ChatMed3.3.7 度小满轩辕3.3.8 BloombergGPT3.3.9 LawGPT3.3.10 LexiLaw3.3.11 Lawyer LLaMA3.3.12 ChatLaw3.3.13 ChatGLM-Math第4章 LangChain技术原理与实践4.1 LangChain技术原理4.2 LangChain六大核心模块4.2.1 模型I/O4.22 数据增强模块4.2.3 链模块4.2.4 记忆模块4.2.5 Agent模块4.2.6 回调处理器第5章 RAG检索增强生成5.1 RAG技术原理5.1.1 RAG的概念与应用5.1.2 RAG技术架构5.1.3 分块和向量化5.1.4 搜索索引5.1.5 重新排序和过滤5.1.6 查询转换与路由5.1.7 RAG中的Agent智能体5.1.8 响应合成器5.1.9 大模型微调和RAG优劣势对比5.2 文本向量模型5.2.1 Embedding模型、Reranker模型及ColBERT模型5.22 阿里巴巴GTE向量模型5.2.3 中文acge_text_embedding模型5.2.4 智源中英文语义向量模型BGE5.2.5 Moka开源文本嵌入模型M3E5.2.6 OpenAI的text-embedding模型5.3 向量数据库5.3.1 Faiss5.3.2 Milvus5.3.3 Pinecone5.3.4 Chroma5.4 RAG应用实践5.4.1 基于大模型构建企业私有数据的知识问答5.4.2 应对大模型落地挑战的优化策略第6章 多模态大模型6.1 多模态基础模型6.1.1 多模态对齐、融合和表示6.1.2 CLIP6.1.3 BLIP6.1.4 BLIP-26.1.5 InstructBLIP和X-InstructBLIP6.1.6 SAM6.1.7 OpenFlamingo6.1.8 VideoChat6.1.9 PaLM-E6.2 OpenAI多模态大模型DALL·E 3、GPT-4V、GPT-4o、Sora6.2.1 文生图多模态大模型DALL·E 36.22 GPT-4V6.2.3 端到端训练多模态大模型GPT-4o技术原理6.2.4 文生视频多模态大模型Sora6.3 通义千问多模态大模型6.3.1 开源Qwen-VL和Qwen-VL-Chat6.3.2 Qwen-VL-Plus和Qwen-VL-Max6.4 开源端到端训练多模态大模型LLaVA6.4.1 LLaVA6.4.2 LLaVA-1.56.4.3 LLaVA-1.66.4.4 MoE-LLaVA6.4.5 LLaVA-Plus6.4.6 Video-LLaVA和LLaVA-NeXT-Video6.5 零一万物多模态大模型Yi-VL系列6.5.1 Yi-VL系列模型架构6.5.2 Yi-VL系列模型训练微调及推理6.6 清华系多模态大模型6.6.1 VisualGLM-6B6.6.2 CogVLM26.6.3 CogAgent6.6.4 CogView、CogVideo和CogVideoX6.6.5 CogCoM6.6.6 GLM-4V-9B第7章 AI Agent智能体7.1 AI Agent智能体介绍和原理7.1.1 AI Agent的定义与角色7.1.2 AI Agent技术原理7.2 主流大模型Agent框架7.2.1 AutoGPT7.22 MetaGPT7.2.3 ChatDev7.2.4 AutoGen7.2.5 FastGPT7.2.6 XAgent7.2.7 GPT-Engineer7.2.8 BabyAGI7.2.9 SuperAGI第8章 大模型在企业应用中落地8.1 基于大模型的对话式推荐系统8.1.1 基于大模型的对话式推荐系统技术架构设计8.1.2 推荐AI Agent智能体8.1.3 面向推荐的语言表达模型8.1.4 知识插件8.1.5 基于大模型的推荐解释8.1.6 对话式推荐系统的新型评测方法8.2 多模态搜索8.2.1 多模态搜索技术架构设计8.22 多模态搜索关键技术8.2.3 多模态实时搜索与个性化推荐8.3 基于自然语言交互的NL2SQL数据即席查询8.3.1 NL2SQL数据即席查询技术原理8.3.2 NL2SQL应用实践8.4 基于大模型的智能客服对话机器人8.4.1 大模型智能客服对话机器人技术原理8.4.2 AI大模型赋能提升智能客服解决率新策略8.4.3 基于大模型的智能客服对话机器人系统搭建8.5 多模态数字人8.5.1 多模态数字人技术原理8.5.2 三维建模与三维重建8.5.3 数字人形象设计8.5.4 唇形同步算法8.5.5 NeRF、ER-NeRF与RAD-NeRF模型8.5.6 数字人项目实践8.6 多模态具身智能8.6.1 多模态具身智能概念及技术路线8.6.2 多模态感知与场景理解8.6.3 视觉导航8.6.4 世界模型8.6.5 具身智能模拟器8.6.6 多模态多感官交互具身智能大模型8.6.7 端到端强化学习人形机器人8.6.8 多模态通才具身智能体   
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值