- 博客(608)
- 收藏
- 关注
原创 6.文本理解和生成大模型
首先来看下如何定义信息检索(IR)任务。给定一个queryqqq给定一个文档库D⋯di⋯D⋯di⋯IR系统计算相关系数得分fqdif(q,d_i)fqdi,然后根据该得分进行排序一个典型的IR系统分为两个阶段:检索和重排阶段。在检索阶段,针对整个文档库,从中找到相关文档的子集,它重视的检索速度和相关文档的召回率;在重排序阶段针对上一步得到的少量文档进行精排,看重的是性能和效果。神经网络IR。
2025-11-21 17:46:41
1035
原创 5.高效训练&模型压缩
比较一下这三个阶段的显存占比:在第1阶段中,每张显卡只需要处理一部分的模型梯度,优化器降低到了原来的显卡数分之一,同时把中间结果的量也降低到原来的卡数分之一;第2阶段中,进一步地把模型的梯度划分提前,把Reduce Scatter提前到了反向传播的过程中,实际上不需要保留完整的梯度。第3阶段中,进一步地划分参数。通过这三部分的优化,显卡上的四大组成部分:参数、梯度、优化器和中间结果都得到了划分,每张显卡只需要保持自己的那部分参数。本小节介绍BMTrain性能上的提升。
2025-11-21 17:34:14
517
原创 4.Prompt Tuning & Delta Tuning
使用encoder作为PLMs的基本编码器Fine-tuning为特定任务添加额外的神经网络微调所有参数pre-training和fine-tuning之间存在差距。pre-training以mask的方式进行训练,而fine-tuning以QA的方式进行微调,存在差距。delta tuning在超大规模的模型上非常高效它的结构随着模型的增加变得越发不重要干净:不需要编辑backonePTM的代码。简单:从全模型tuning迁移到delta-tuning只需要3行代码。
2025-11-21 16:40:45
776
原创 3.Transformer基础
给定一个query向量和一组value向量,注意力技术根据query计算值的加权和根据查询,加权和是值的选择性汇总。可以通过注意机制获得任意一组表征的固定大小的表征。如果存在value向量h1h2hN∈Rd1h1h2hN∈Rd1,query向量s∈Rd2s∈Rd2根据注意力分数e∈RNe∈RN,计算得到注意力输出o∈Rd1o∈Rd1αsoftmaxe∈RNαsoftmax。
2025-11-21 11:59:07
969
原创 深入理解AI Agent的“灵魂”:上下文工程(Context Engineering)
然而,业内的共识是:多数AI Agent的失败,并非模型能力的失败,而是上下文工程(Context Engineering)的失败。我们的工作重心,正不可逆转地从“如何找到那句完美的提示词”,转向“如何设计一个能够为模型在每一步都动态组装出完美上下文的、健壮可靠的系统”。归根结底,请记住:无论是精巧的提示词、强大的RAG,还是标准化的MCP,它们都指向同一个目标——在模型做出决策之前,为它准备好一份恰到好处的上下文。这类上下文的核心功能是告诉模型能做什么以及做了之后的结果,赋予模型与外部世界交互的能力。
2025-11-10 17:13:36
304
原创 上下文工程 (Context Engineering)
在本文中,我们通过回顾各种流行的智能体和论文,剖析了一些常见的上下文工程策略——写入(write)、选择(select)、压缩(compress)和隔离(isolate)。我们将常见的智能体上下文工程策略分为四个类别——写入(write)、选择(select)、压缩(compress)和隔离(isolate)——并通过回顾一些流行的智能体产品和论文来给出每个类别的示例。模式的一个字段(例如,messages)可以在智能体的每个回合暴露给 LLM,但该模式可以将信息隔离在其他字段中,以供更有选择性地使用。
2025-11-10 16:29:58
837
原创 大模型之思维链(cot)
思维链(CoT)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt(左)与链式思维提示过程(右)的比较。思维链的主要思想是通过向大语言模型展示一些少量的 exemplars,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。
2025-11-07 11:41:38
996
原创 大模型之langchain
LangChain Agent 是框架中驱动决策制定的实体。它可以访问一组工具,并可以根据用户的输入决定调用哪个工具。代理帮助构建复杂的应用程序,这些应用程序需要自适应和特定于上下文的响应。当存在取决于用户输入和其他因素的未知交互链时,它们特别有用。LangChain model 是一种抽象,表示框架中使用的不同类型的模型。LLM(大型语言模型):这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。聊天模型( Chat Model)
2025-11-07 11:36:09
1005
原创 大模型之大模型评测
这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。而人工评测则侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见。了解和掌握这两种评测方法对准确评测和改进语言模型的能力十分重要。
2025-11-07 11:11:01
279
原创 大模型之大模型幻觉
在语言模型的背景下,幻觉指的是:看似流畅自然的表述,实则不符合事实或者是错误的。幻觉现象的存在严重影响LLM应用的可靠性,本文将探讨大型语言模型(LLMs)的幻觉问题,以及解决幻觉现象的一些常见方法。
2025-11-07 11:00:59
941
原创 大模型之检索增强llm
检索增强 LLM ( Retrieval Augmented LLM ),简单来说,就是给 LLM 提供外部数据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关信息来生成结果。下图是一个检索增强 LLM 的简单示意图。OpenAI 研究科学家 Andrej Karpathy 前段时间在微软 Build 2023 大会上做过一场关于 GPT 模型现状的分享。
2025-11-07 10:45:25
697
原创 大模型agent技术
现在全球对Agent的关注也是非常狂热的,几个月前,OpenAI 在内部就开始高度关注智能体(Agent)领域,Deep Mind的联合创始人最近也提到下一代 AI 技术走向并非是生成性 AI,而应该是交互性 AI。这种交互性 AI 在很大程度上类似提到的智能体,用户要求完成各种任务,智能体则可以对软件进行操作或者与人进行协作,完成相关的工作。
2025-11-06 17:58:17
725
原创 大模型之rag(检索增强生成)技术
简单来说,。下图是一个检索增强 LLM 的简单示意图。传统的信息检索工具,比如 Google/Bing 这样的搜索引擎,只有检索能力 (),现在 LLM 通过预训练过程,将海量数据和知识嵌入到其巨大的模型参数中,具有记忆能力 (从这个角度看,检索增强 LLM 处于中间,将 LLM 和传统的信息检索相结合,通过一些信息检索技术将相关信息加载到 LLM 的工作内存 () 中,即 LLM 的上下文窗口 (),亦即 LLM 单次生成时能接受的最大文本输入。
2025-11-06 14:50:30
821
原创 大模型之近端策略优化(ppo)
PPO其实就是避免在使用重要性采样时由于在θθθ下的pθat∣stpθat∣st与在θ′θ′θ′下的pθ′at∣stpθ′at∣st差太多,导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制,这个限制对应着θθθ和θ′θ′θ′输出的动作的 KL 散度,来衡量θθθ与θ′θ′θ′的相似程度。
2025-11-04 16:54:51
701
原创 大模型之策略梯度(pg)
演员(actor)环境和奖励函数。其中环境和奖励函数不是我们可以控制的,在开始学习之前就已经事先给定。演员里会有一个策略,它用来决定演员的动作。策略就是给定一个外界输入,它会输出演员现在应该要执行的动作。唯一可以做的就是调整演员里面的策略,使得演员可以得到最大的奖励。将深度学习与强化学习相结合时,策略πππ就是一个网络,用θθθ表示πππ的参数。举上面幻境的例子,输入就是当前分身所在的分叉路口,假设可以向上,向下,向左走,经过策略网络后,输出就是三个动作可以选择的概率。
2025-11-04 15:20:01
698
原创 大模型RLHF:PPO原理与源码解读
智能体(Agent)与环境(Environment)强化学习中两个实体的交互:状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R**:** R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在t时刻,环境的状态为StS_{t}St,达到这一状态所获得的奖励为RtR_{t}Rt智能体观测到StS_{t}St与RtR_{t}Rt,采取相应动作。
2025-11-03 18:06:19
949
原创 大模型之DPO
基于人类反馈的强化学习(RLHF)是一个复杂且不稳定的过程,拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了直接偏好优化(DPO)算法,它稳定、高效且计算量轻,无需拟合奖励模型,也无需在微调期间从LM采样或执行显著的超参数调整。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致,与现有方法一样或更好。
2025-11-03 17:48:35
914
原创 大模型之强化学习
AI大模型面试圣经大模型开发者宝藏Dify高效AI工作流智能体强化学习包含环境、动作和奖励3部分,其本质是智能体通过与环境的交互,使其做出的动作对应的决策得到的总奖励最大,或者说是期望最大。首先强化学习和无监督学习是不需要有标签样本的,而监督学习需要许多有标签样本来进行模型的构建和训练。其次对于强化学习与无监督学习,无监督学习直接基于给定的数据进行建模,寻找数据或特征中隐藏的结构,一般对应聚类问题;强化学习需要通过延迟奖励学习策略来得到模型与目标的距离,这个距离可以通过奖励函数进行定量判断,这里我们可以
2025-11-03 17:40:20
805
原创 大模型之强化学习-rlhf相关
强化学习(Reinforcement Learning,RL)研究的问题是智能体(Agent)与环境(Environment)交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)。强化学习基本框 架如图所示,主要由两部分组成:智能体和环境。在强化学习过程中,智能体与环境不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作(Action),也称为决策(Decision)。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖 励。
2025-11-03 17:29:54
694
原创 大模型之faster_transformer
是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。使用此模块,您可以运行编码器-解码器架构模型(如:T5)、仅编码器架构模型(如:BERT)和仅解码器架构模型(如: GPT)的推理。FT框架是用C++/CUDA编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,这使您可以在 GPU 上进行快速的 Transformer 推理。
2025-11-03 17:15:17
870
原创 大模型之Text Generation Inference(TGI)
Text Generation Inference(TGI)是 HuggingFace 推出的一个项目,作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具,旨在支持大型语言模型的优化推理。
2025-11-03 16:56:58
747
原创 大模型之推理
需要注意的是,显存的占用情况可能会受到硬件设备、深度学习框架和模型实现的影响。不同的环境和设置可能会导致显存占用的差异。如果显存占用过多导致资源不足或性能下降,可以考虑调整模型的批量大小、优化显存分配策略或使用更高性能的硬件设备来解决问题。
2025-11-03 16:34:50
729
原创 大模型之vllm
声称gpt2gpt2-xl觉得有意思的东西其实主要是两个,continus batching和PagedAttention,本文为上集,主要讲讲continus batching。
2025-11-03 16:18:44
735
原创 大模型之llm推理框架简单总结
下面首先来总结一下这些框架的特点,如下表所示:下面在内存容量为40GB的A100 GPU上,并且使用LLaMA-1 13b模型(因为列表中的所有库都支持它)进行七个部署框架的对比。vLLM的吞吐量比HuggingFace Transformers(HF)高14x-24倍,比HuggingFace Text Generation Inference(TGI)高2.2x-2.5倍。
2025-11-03 15:46:59
913
原创 上下文工程
这不是「感知你的状态」,而是「理解你的目标并帮你达成」。当你走进办公室,系统会自动:检测你的位置(通过红外传感器)、识别你的身份(通过ID卡)、推断你的活动(会议 vs 个人工作)、调整环境(灯光、温度、通知模式)。思考一个问题:如果你是你的上下文的总和,如果你的上下文会在你之后继续存在,如果未来的AI会基于你的上下文来「模拟」你,那么,你想留下什么样的上下文?上下文的使用完全是被动的、固定的、局部的——每个模块各自为政,通过集中式上下文服务器读取数据,遵循全局schema,没有协作,没有推理,没有适应。
2025-11-03 15:29:55
747
原创 浏览器端实时语音采集 + WebSocket 传输 + 后端 Whisper + GPT 翻译 + 实时字幕返回
这个版本相当于一个轻量级“实时同传字幕服务器”,打开网页 → 点击录音 → 说话后端实时识别并翻译 → 字幕实时显示延迟在 1~2 秒内(取决于网络与模型大小)可部署在局域网或云服务器(HTTP + WebSocket)项目结构├── server.py # FastAPI 后端(ASR + 翻译 + WebSocket)│ └── index.html # 前端网页fastapiuvicornsoundfile。
2025-10-30 16:57:39
548
原创 一个可本地运行的实时字幕翻译 Demo(Whisper + GPT + Streamlit),可以边说边出中英文字幕
这个 demo 在本机运行(开发/会议桌面场景)能做到“边说边出字幕(英文 → 中文)”,并包含增量显示、简单断句与缓存策略,方便后续替换为低延迟 streaming ASR 或本地 LLM。注意:示例使用 faster-whisper 做本地 ASR(也可换 OpenAI Whisper API / SenseVoice / FunASR),翻译用 OpenAI ChatCompletion(可替换为本地 LLM)。
2025-10-30 16:52:46
1105
原创 ASR+MT+LLM+TTS 一体化实时翻译字幕系统
一、总体架构:实时翻译字幕系统流程一个完整的实时字幕翻译系统通常包含以下 4 个核心模块:最终输出可以是:屏幕字幕(例如会议、直播)翻译语音(同传)双语字幕流(带时间戳)二、引入大模型:它的作用在哪里?大模型(LLM)可以在三个关键环节增强传统算法:实际做法是:Whisper(ASR)→ LLM(翻译+润色)→ Subtitle Stream三、简单实现方案(本地+Python)这里用一个 可跑通的轻量原型 来说明:环境依赖。
2025-10-30 16:41:53
609
原创 Spring Al学习11:向量数据库
请查阅你使用的向量存储的文档以获取具体的属性名称。给定一个指向 JSON 源文件的 String 引用(包含需加载至向量数据库的数据),我们使用 Spring AI 的 JsonReader 加载 JSON 中的特定字段,将其分割为小块后传递给向量存储实现。当插入向量数据库时,文本内容通过嵌入模型(如 Word2Vec、 GLoVE、 BERT 或 OpenAI 的 text-embedding-ada-002)转换为数值数组(即 float[]),称为向量嵌入(Embedding)。
2025-10-30 14:46:24
893
原创 Spring Al学习10:检索增强生成
此处提供的 PromptTemplate 用于定制 Advisor 如何将检索到的上下文与用户查询合并,这与在 ChatClient 上配置 TemplateRenderer(通过 .templateRenderer())不同 — 后者影响 Advisor 运行前初始用户/系统提示内容的渲染。使用 QueryTransformer 时,建议将 ChatClient.Builder 的温度值(temperature)设低(如 0.0),以确保更确定性和准确的结果,从而提升检索质量。
2025-10-30 14:44:46
451
原创 Spring Al学习9:模型上下文协议(MCP)
Spring AI MCP 通过集成 Spring Boot 扩展了 MCP Java SDK,同时提供 客户端 和 服务端 Starter。具体实现指导(使用底层 MCP 客户端/服务端 API)请参阅 MCP Java SDK 文档。MCP 客户端是 Model Context Protocol(MCP)架构的核心组件,负责建立并管理与 MCP 服务器的连接。MCP Java SDK 提供 MCP 的 Java 实现,支持通过同步和异步通信模式与 AI 模型及工具进行标准化交互。
2025-10-30 14:41:15
345
原创 Spring Al学习8:工具(Tool)调用
在内部,ChatClient 将处理模型发出的所有工具调用请求,并将工具执行结果返回给模型,使模型能够生成最终响应。接下来我们将该工具提供给模型使用。若同时提供默认工具和运行时工具,运行时工具将完全覆盖默认工具。ToolCallbackResolver 由 ToolCallingManager 内部使用,用于在运行时动态解析工具,同时支持 “[_framework_controlled_tool_execution]” 和 “[_user_controlled_tool_execution]” 两种模式。
2025-10-30 14:38:41
896
原创 Spring Al学习7:ImageModel
ImagePrompt 作为 ModelRequest 的实现,封装了 ImageMessage 对象列表及可选的模型请求选项。此外,每个模型特定的 ImageModel 实现可携带专属选项传递给 AI 模型。ImageResponse 类封装 AI 模型的输出,每个 ImageGeneration 实例包含单个提示词可能生成的多个输出之一。ImageOptions 接口继承 ModelOptions,表示可传递给图像生成模型的选项,用于定义少量可跨模型移植的通用参数。
2025-10-30 14:20:26
274
原创 Spring Al学习6:嵌入模型 API
摘要:嵌入技术将文本、图像等数据转换为数值向量以捕捉语义特征。Spring AI的EmbeddingModel接口提供了标准化嵌入处理方案,支持文本转向量操作并具备可移植性和简洁性。该接口包含embed()等核心方法,可与多种嵌入模型(如OpenAI、Azure等)集成,并封装了EmbeddingRequest和EmbeddingResponse等辅助类来管理输入输出。通过计算向量距离实现语义分析,该技术为AI应用提供了基础支持。
2025-10-30 11:55:46
551
原创 Spring Al学习5 :聊天模型 API
要了解 Prompt 和 Message 的实际应用及其与这些角色或消息类别的关系,请参阅 Prompts 章节的详细说明。如下示意图展示统一接口 ChatModel 和 StreamingChatModel 的运作机制,这些接口用于与不同供应商的 AI 聊天模型交互,使客户端应用在保持统一 API 的同时,能轻松集成和切换不同的 AI 服务。借助 Prompt(输入封装)和 ChatResponse(输出处理)等配套类,Chat Model API 统一了与 AI 模型的通信。
2025-10-30 11:43:25
668
原创 Spring Al学习4:结构化输出转换器
StructuredOutputConverter 会尽力将模型输出转换为结构化格式,但 AI 模型并不保证按请求返回结构化输出(可能无法理解提示或生成所需结构)。FormatProvider 向 AI 模型提供特定格式指南,使其生成可被 Converter 转换为目标类型 T 的文本输出。FormatProvider 向 AI 模型提供特定格式指南,使其生成可被 Converter 转换为目标类型 T 的文本输出。Converter<String, T> 负责将模型的文本输出转换为指定类型 T 的实例。
2025-10-30 10:56:08
811
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅