大模型应用开发入门(一)模型基础:大模型是怎么实现记忆的?RAG检索增强生成、ReAct(Reason+Act)

大模型作为新兴领域,不断地冒出来新的专有术语和新的概念,让大家觉得很神秘,捉摸不透。但是大部分复杂性的背后都会有一个极其简单便于理解的模型,本次分享最主要就是大模型的基本范式,通过范式将这些神秘感去除。

大模型虽然很厉害,很神秘,但作为使用人员,门槛是非常非常非常低的。

一、模型基础

虽然市面上的大型语言模型(LLMs)种类繁多,但在使用层面大家平等的都是API调包侠,因此从接口层面来剖析大模型有哪些能力。LLM的接口通常都遵循或类似于 OpenAI 的规范。这里我们以 OpenAI 的接口为例进行说明。

在与大型模型交互时,除了控制模型输出随机性的参数外,最核心的参数只有两个:messagestools。可以说,市面上各种各样的大模型应用,都是基于这两个参数的基础上设计而来。

1、messages-大模型是怎么实现记忆的?

  • messages是一个对话数组,其中角色主要有:
  • system:代表当前对话的系统指令,一般放提示词
  • user:用户指令
  • assistant:LLM的回复
  • …:不同厂商会有不同的扩展定义

大模型所谓的对话记忆实际上就是依赖该数组做信息传递,如下图所示,第一轮我告诉我的名字叫屈定,第二轮的时候在问他是谁,他已经知道了我的名字,之所以知道因为我在messages的上下文中传递给了他这个信息。

  • 使用user传递用户的对话

img

  • 使用system设置系统指令

img

  • 提示词的不稳定容易被指令注入攻击

img

三张图看完,先总结下:

  • 大模型为什么能记住之前的对话?

只是因为后台系统给了他之前的对话,并不是他自己记住。大模型的请求调用就是一个无状态的,取决于每次给的对话内容。

  • 大模型的提示词有什么用?

大模型的提示词可以进一步控制(覆盖)模型的行为,具备高优先级,但存在不稳定性

接下来我们就可以来理解第一个重要的大模型范式:检索增强生成,也就是RAG(Retrieval Augmented Generation)

直白的理解为用检索到的知识,来增量生成答案的质量。比如我有一个关于数仓各种问题处理的Q&A,想要做一个问答机器人,这个问答机器人要基于我的Q&A回复用户。这个 检索Q&A -> 基于检索到的Q&A回复用户,这个流程就是一个典型的RAG链路。也显而易见,RAG的最终目标是生成靠谱的答案给到用户。
img

RAG链路的搭建是很简单,但是效果却很难,从流程里面我们能发现两个关键点:

1.知识库检索召回:这里要解决如何召回最靠谱的答案。
2.LLM基于知识回答:这里要解决的是如何让模型在一堆知识中给出自信准确的回答。

这些都是业界在不断探索的东西,没有所谓的标准答案,只有适合当前业务的最佳方案。

2、tools-大模型能执行任何工具?

经常有同学会问一些大模型是否能查询odps,或者大模型能够把数仓数据导入到ob之类的问题。这些问题的背后是对LLM存在错误的理解,也就是tools参数的理解。

tools也是一个数组,包含了一堆工具集合,核心为工具的作用描述,和工具需要的参数,如下图天气工具的定义。

img

接下来就是使用工具,基于工具的回答至少要两次大模型请求调用:

  1. 将用户的对话和工具一起给到大模型,大模型需要执行的工具以及工具参数;
  2. 后端系统依据大模型选择结果,去执行对应的工具,拿到结果;
  3. 再次请求大模型,此时上下文中给到了工具执行结果,大模型基于信息回复;

img

先总结下:

大模型并不能够执行任何工具,但是大模型能够选择接下来要执行的工具。选择后工具由配合的系统来执行获取结果。

接下来我们就可以来理解第二个重要的大模型范式ReAct(Reason+Act)

这里需要强调下,大模型的很多范式都是对生活中人类行为的模拟,因此我们也是从生活中的案例来理解大模型。

案例主题:老板让写一份调研外部大模型框架的报告
工具:互联网搜索,PPT,思维导图

思考 (Reasoning): 需要调研外部大模型框架,明确调研目标是了解行业内的主要框架、特点和应用场景。需要先明确有哪些主流框架,然后针对性地收集资料。
行动 (Acting):
行动: 使用互联网搜索“主流大模型框架 2024/2025”、“开源大模型框架”。
观察 (Observation):
观察: 搜索结果显示:PyTorch、TensorFlow、JAX等是主流框架,还有一些新兴框架如MindSpore、Paddle等。
思考 (Reasoning): 我已经拿到了想要的资料,接下来使用思维导图搭建汇报思路
行动 (Acting):
行动: 使用思维导图工具,搭建报告的初步框架,包括:框架名称、开发语言、主要特点、优势、劣势、应用场景。
观察 (Observation):
观察: 初步框架包括:框架名称、开发语言、主要特点(动态图/静态图、分布式训练支持等)、优势、劣势、应用场景(NLP、CV等)。
思考 (Reasoning): 信息基本收集完毕,需要将所有信息整理成结构化的报告,并使用PPT进行总结和分析。
行动 (Acting):
行动: 使用PPT工具,将思维导图中的内容整理成PPT,并撰写文字说明。
观察 (Observation):
观察: 完成了PPT初稿,内容比较全面,但需要进行排版美化。

这个思考的流程就是ReAct,后面有实际案例,这里先理解这个概念。

img


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值