上有晨光-优快云博客

原创 OpenAI Assistant API（三）：Run运行时的状态转移机制

需求：为实时获取结果，需要监控Run的状态。实现思路：理论上，在Run进入queued状态后，不断监控status关键词。当状态达到completed时，打印最后结果，就能确保当前轮次的对话或任务已成功完成。OpenAI Assistant API提供了retrieve方法，可借助该方法及相关框架实现此需求。

2025-04-03 09:36:40 616

原创 OpenAI Assistant API（二）：Thread、Messges及Run应用方法

（助手的ID）两个必需参数，在运行阶段实现Thread与Assistant的绑定，这种灵活性可使创建多个代理执行不同任务，执行具体线程对话时能灵活选择代理。此流程图展示了Assistant API的基本操作流程，从创建Thread开始，接着构建并添加Message到Thread，最后创建Run来执行大模型响应。Thread创建方式简单，通过。（用于运行的线程ID）和。构建并添加Message。

2025-04-03 09:26:37 685

原创 OpenAI Assistant API（一）：Assistant对象的创建方法

用户消息（user message）通过thread传递，run接收assistant和thread（包含用户问题），并依据特定思考方式或工具（如code interpreter代码解释器）生成模型响应，最后将响应追加回thread，完成一轮对话或任务。：assistant可以访问thread，thread通过存储message，并在对话时自动构建用户问题与大模型回答的对应存储机制，同时在后续对话中追加历史信息，让大模型拥有记忆功能。

2025-04-03 09:23:11 581

原创 OpenAI Assistant API框架的整体介绍

OpenAI的影响力：OpenAI及其发布的产品和模型对大模型技术生态影响深远，GPT系列模型能力卓越，应用广泛。OpenAI率先推出Function Calling功能，引领行业发展，促使各模型公司纷纷优化自身模型。Assistance API的推出：在AI Agent概念引发广泛热议时，OpenAI推出Assistance API，旨在构建新一代智能体代理框架规范，为其GPT系列模型提供支持。OpenAI API的特性：OpenAI API处于持续迭代优化中，开发者论坛活跃度高。

2025-04-03 09:18:19 307

原创基于ReAct Agent构建电商智能客服（附github代码）

它可以根据用户的输入，调用相应的工具（如查询产品信息、读取优惠政策、计算价格等），并最终给出回答。在文件的末尾，还包含了一个简单的测试代码，用于验证 OpenAI 模型在当前环境下的连通性。这段代码定义了一个 OllamaClient 类，用于与 Ollama 服务器进行交互，通过调用 Ollama 的 RESTful API 来生成聊天完成的响应。这段代码的主要功能是创建一个客户服务代理，根据用户输入的问题，使用指定的工具函数进行处理，并通过循环不断迭代，直到得到最终答案或达到最大迭代次数。

2025-04-03 09:14:12 545

原创案例：从零复现ReAct Agent的完整流程（附代码）

ReAct Agent是一种用于提示大语言模型的框架，旨在协同大语言模型的推理和行动能力，使模型更强大、通用和可解释。它通过“思考 - 行动 - 观察 - 回答”的循环过程，让智能体能够动态地在产生想法和执行特定任务的行动之间交替，以解决复杂问题。该框架的灵感来源于人类执行任务时思维和行动相结合的方式，在自然语言处理和智能交互领域具有重要应用价值。

2025-04-03 09:10:27 624

原创 ReAct Agent框架的基础理论

ReAct Agent是用于提示大语言模型的框架，不同于前端的React框架，它是众多主流Agent开发架构变种的基础。该框架于2022年10月在论文《ReAct: Synergizing Reasoning and Acting in Language Models》中首次引入，并在2023年3月修订。其核心作用是协同大语言模型的推理和行动能力，使模型更强大、通用且可解释，让智能体在产生想法和执行特定任务的行动之间动态交替。相关参考网站ReAct官网。

2025-04-03 09:05:42 618

原创大模型：提示工程到（ReAct）代理工程详解

工具1: 小红书攻略搜索（模拟API）@tool"""搜索小红书旅游攻略，返回景点列表和评分"""# 模拟数据（实际应调用API）return [{"景点": "故宫", "评分": 4.8, "建议游玩时间": "3小时"},{"景点": "颐和园", "评分": 4.7, "建议游玩时间": "2小时"}# 工具2: 携程机票查询（模拟API）@tool"""查询携程机票库存和价格"""return {"航班": "CA1234","价格": 1200,

2025-04-02 09:37:46 739

原创 Funcation Calling 与 AI Agent的本质区别

是调用具体功能或工具帮助完成特定任务的底层技术，在处理简单任务或单一意图任务时较为有效，但在处理复杂多意图任务时存在不足。AI Agent：是能够独立思考和行动的个体，核心是具备自主决策和高效执行的能力。在实际应用中，面对复杂任务时，AI Agent能展现出更强的适应性和处理能力，是实现更智能、复杂应用的关键技术。更强的适应性和处理能力，是实现更智能、复杂应用的关键技术。AI Agent 前沿发展。

2025-04-02 09:34:47 666

原创 OpenAI最新推出的结构化输出功能介绍（附代码）

类定义：定义名为的类，继承自BaseModel，可利用 Pydantic 的自动数据验证、序列化和反序列化等功能。属性标注表明该模型有一个属性，且必须是字符串类型。任何为提供非字符串类型值的操作，都将引发类型错误。

2025-04-02 09:32:58 689

原创大模型Function Calling并行调用和多函数调用的应用方法（附代码）

自2023年11月后发布的GPT系列模型，在Function Calling架构下支持并行函数调用，可在单个响应中生成多个函数调用，适用于处理涉及多个实体触发函数调用或函数执行时间长的场景，以此提升效率。

2025-04-02 09:29:38 949

原创实现FunctionCalling流程自动化的智能电商客服（附代码）

测试表明，对于数据库中存在的商品，能正确返回信息；不存在的商品则给出合理回复。嵌入聊天机器人，使其成为能完成特定任务的智能助理。：在上次代码的基础上，将外部工具调用。可避免并行调用错误。

2025-04-02 09:26:19 302

原创大模型Funcation Calling 完整生命周期细节复现（附代码）

Function Calling通过集成工具扩展了大语言模型的能力，使人工智能助手能够完成特定领域的复杂任务。理解并掌握其完整生命周期（从工具定义、参数生成到结果处理）是构建智能应用的关键。在实际开发中，要特别关注工具描述的准确性、结构化输出处理逻辑以及多轮对话的上下文管理，同时兼顾性能优化和安全合规等方面。

2025-04-02 09:22:29 939

原创 AI Agent交互与选型开发

user：用户输入内容，向模型发起请求的文本。assistant：模型输出的回复内容。system（可选）：系统级指令，设定模型回复风格或任务范围（如“以专业学术风格回答问题”）。二、OpenAI SDK调用核心实现。

2025-04-02 09:17:56 976

原创 AI Agent与RAG结合流程理解（附代码）

RAG 与 AI Agent 的结合实现了。

2025-04-02 09:14:43 979

原创大模型 AI Agent 与 LLMs + RAG 的本质区别

大模型（LLMs）的突破RAG（检索增强生成）的兴起AI Agent 的崛起（2024“代理年”）大模型（LLMs）RAGAI Agent目标导向行为状态跟踪与记忆管理环境交互与工具调用持续学习与泛化能力核心应用场景并行函数调用逻辑多函数调用方法当前挑战未来方向

2025-04-02 09:12:31 856

原创 AI Agent核心架构与AgentExecutor

导航网站：https://e2b.dev/ai-agents/open-source 总结整理了AI Agent工具，涵盖开源和闭源项目，方便开发者查找和选择。热门框架框架名称特点应用场景AutoGPT具有创新性启发，可自主生成任务和解决方案复杂任务自动化处理LangGraph基于LangChain发展，用图的概念构建AI Agent，适用于企业级和市场级需求企业复杂业务流程优化、智能决策支持Cai项目基于LangChain开发，近期在国外较热门。

2025-04-02 09:09:46 1096

原创 AI Agent的发展脉络与工作原理

AI Agent（人工智能代理）被定义为 “可以感知环境、处理信息，并且能够采取行动以实现特定目标的软件程序或者是系统。

2025-04-01 10:08:33 603

原创大模型应用的幻觉问题与RAG技术详解

大模型在缺乏具体信息时虚构答案的现象，表现为看似合理但实际错误的回答。

2025-04-01 10:05:57 965

原创大模型应用发展及Agent前沿技术趋势

fill:#333;color:#333;color:#333;fill:none;提示工程函数调用Agent阶段。

2025-04-01 09:56:44 704

原创 DeepSeekV3模型接入Open WebUI前端框架

【代码】DeepSeekV3模型接入Open WebUI前端框架。

2025-04-01 09:34:41 312

原创 Deepseek的FunctionCalling功能代码实现完整流程

封装天气查询函数使用库调用OpenWeather API，返回JSON格式结果代码示例：2. 定义函数元数据与工具列表创建函数元数据（JSON Schema）描述函数名称、参数及功能代码示例：配置工具列表将函数包装为参数传递给模型代码示例：3. 调用模型触发Function Calling首次请求触发函数调用发送用户问题，模型返回指示需调用外部函数代码示例：4. 整合结果并二次请求构建完整消息链将用户问题、模型触发调用、函数结果

2025-04-01 09:33:15 1081

原创 Deepseek的Function calling功能流程

Function Calling功能是智能体开发的重要基石。熟练掌握该功能，甚至可以在不借助agent开发框架的情况下搭建复杂的智能体。在低代码开发框架（如Cozy、Dify）进行智能体开发时，也需要了解Function Calling底层原理，因为这些框架虽无需写代码，但同样存在调用外部工具的流程。

2025-04-01 09:30:18 230

原创构建DeepSeek-V3多轮对话机器人及模型参数列表

2025-04-01 09:27:38 862

原创 DeepSeekV3模型API调用参数

DeepSeek模型与GPT模型采用相同的参数体系，在调用函数时，参数众多。model和message。model参数：有两个可选值，为对话模型，适用于日常对话；为编程模型，输入编程相关问题时使用，会返回代码。通常情况下，使用模型。message参数：是一个多角色的参数系统，以列表形式存在。列表中的每个元素是一个字典，包含role和content两个字段。role表示消息发送者的角色，content表示消息内容。

2025-04-01 09:24:52 336

原创 DeepSeekAPI-Key获取与模型调用方法详解

【代码】DeepSeekAPI-Key获取与模型调用方法详解。

2025-04-01 09:19:36 968

原创 DeepSeek V3 核心技术亮点

多专家并行处理不同子任务，动态路由机制选择激活专家。支持多模态任务（如文本、代码、数学推理）。Transformer模块、RMSNorm、动态路由实现。量化相关代码（如、）。硬容量（Hard Capacity）：单个专家在单次前向中最多处理的Token数（DeepSeek-V3默认值：）。软容量（Soft Capacity）：通过概率平滑控制专家负载，允许临时过载但引入惩罚机制。学习资源**

2025-04-01 09:14:42 969

原创 DeepSeek 模型对比（R1 vs V3 vs V3-0324）

DeepSeek通过R1与V3系列的协同创新，在特定领域（数学/代码）已实现对国际巨头的局部超越，其"专用-通用"技术融合路线为全球大模型发展提供了新范式。但在多模态能力与复杂系统推理方面，仍需追赶Claude 3.7等顶尖模型。

2025-03-30 12:20:51 908

原创 RLHF（基于人类反馈的强化学习算法）的挑战与2025最新改进方向

研究方向具体技术/方法核心内容应用效果/优势奖励模型优化与方差控制增加对比对训练、结合SFT和偏好损失等发现奖励方差对优化效率关键，低方差使目标函数平坦致收敛慢，通过相关操作诱导高奖励方差提升训练效率混合编程框架提升训练效率HybridFlow框架融合单控制器灵活控制流与多控制器高效计算流优势，解耦控制与计算流程，支持多种并行策略和模型部署方式训练吞吐量相比现有系统提升1.5 - 20倍，适用于大规模模型复杂RL流程对抗恶意反馈的共识机制COBRA框架。

2025-03-30 12:15:54 815

原创 RLHF全链路微调LLamaFactory实践要点

使用ppo作为微调阶段，加载原始文件的大模型加载值。输出路径是针对ppo微调之后的路径。Reward model的保存路径对应界面加载的Reward模型产生的adapter块（LoRA块）的路径，在Reward model type中配置LoRA。若使用导出的奖励模型文件，加载导出路径时需注意模型兼容性，否则会报错。加载上节课Reward模型输出的LoRA的adapter块，既可以使用相对路径（相对于启动lama factory web UI命令的路径），也可以使用绝对路径。

2025-03-30 12:09:32 344

原创 RLHF奖励模型（reward model）训练全流程讲解

无法稳定输出评分，回复内容不相关。

2025-03-30 12:06:27 933

原创 RLHF奖励模型与PPO的结合

核心目标：将人类偏好转化为可计算的奖励信号公式原型符号定义场景类比奖励模型：通过人类标注学习评分，将偏好转为可计算信号。PPO变种：融合奖励信号、KL约束、预训练正则，确保模型符合人类偏好且能力稳定。多阶段协同：预训练→监督微调→奖励模型→PPO优化，逐步优化模型，实现高效可控的语言生成。多阶段协同：预训练→监督微调→奖励模型→PPO优化，逐步优化模型，实现高效可控的语言生成。

2025-03-30 12:00:05 649

原创 RLHF（基于人类反馈的强化学习）流程拆解与核心

预训练模型奖励模型训练强化学习优化最终策略模型人类反馈数据PPO算法策略更新用户输入生成回答二、RLHF在GPT中的应用1. 发展历程2018年：GPT-1（1.17亿参数）2019年：GPT-2（15亿参数）2020年：GPT-3（1750亿参数）首次引入RLHF（InstructGPT）2022年：ChatGPT（GPT-3.5）2023年：GPT-4（多模态能力）2. 应用步骤#mermaid-svg-G79gB74WyMbQj2dS {font-family:"trebuche

2025-03-29 10:02:51 736

原创 RLHF（基于人类反馈的强化学习）技术

RLHF通过解决奖励函数局限、提升人性化表现、保障内容安全、满足个性化需求，成为大模型核心技术。其流程从预训练到人类反馈，再到奖励模型与策略优化，层层深入，精准适配人类需求。在应用时，需结合场景特点，平衡技术价值与成本，推动AI高效服务多样化需求。核心详述见下篇。

2025-03-29 09:59:53 686

原创 PPO算法源码解读

命令行传入 webui train对应，文件中搜索train找到TRAIN对应方法点击查询“PPO”，点击run_ppo()点击ref_model可以看到ref_model有过二次加载继续找ref_model点击CustomPPOTrainer主要步骤在step方法里，搜索step(PPO 的 Step 方法指其训练流程中的核心步骤，通过策略交互、优势估计、策略优化实现稳定学习。对于第五步，trainer.py有第四个模型：：通过训练参数（如。

2025-03-28 16:24:19 248

原创 LLamaFactory后端PPO微调实操

训练SFT模型：准备监督微调数据集，选预训练模型初始化，用数据集训练，调超参数（如学习率、训练轮数）优化权重。训练Reward奖励模型：准备含输入、输出文本及奖励分数的数据，选模型架构初始化，训练使模型准确预测奖励分数。初始化模型：用SFT模型权重初始化Reference和Actor模型，前者权重冻结，后者可训练；用奖励模型权重初始化Critic模型，其权重可训练。RLHF - PPO执行。

2025-03-28 16:11:15 1181

原创 PPO模型微调准备知识与数据预处理

1. 预训练基座模型（Base Model）2. Instruction-tuned模型实践建议：1. 奖励模型选择原则2. 推荐模型列表下载命令示例：同一个基座模型可以用来训练出reward模型，然后再用这个基座模型进行PPO微调。思考点：相同基座模型避过拟合：增加数据多样性，采用正则化（如 Dropout）或早停策略。不同基座模型降成本：用模型蒸馏，先训练轻量级奖励模型再迁移。1. 数据集选择标准2. 数据处理步骤步骤1：数据过滤与转换步骤2：数据验证与预览步骤3：生成Alpaca格式数据

2025-03-28 16:02:50 878

原创大模型微调之 PPO算法中的多模型协作关系

PPO的核心部分由这四个模型进行一个组成：Actor Model（主角模型）Pre_model（参考模型）Critic Model（教练模型）Reward Model（裁判模型）训练前准备PPO循环训练Step 1：输入prompt（如“如何煮咖啡”），Actor生成回答At。Step 2：Critic预测At的长期价值Vt（如“满意度8分”）。Step 3：Reward Model计算即时奖励Rt（如“准确性7分”）。Step 4：计算优势函数，指导策略更新。Step 5：通过剪切目标函数约束策

2025-03-28 15:57:49 678

原创大模型微调之详解PPO算法

PPO的核心优势稳定性：剪切机制避免训练崩溃。灵活性：适用于多种任务（如对话、毒性控制）。对齐性：结合奖励模型，符合人类偏好。潜在挑战超参数（如ϵ）对结果影响较大，需谨慎调优。奖励模型的设计直接影响策略优化方向，需高质量标注数据。模型选择的考量因素任务类型：对话任务优先选择RLHF（如ChatGPT）；毒性控制选择DPO+RM（如FLAN-T5）。资源限制：LLaMA的Lora微调模式适合低成本场景。4** 未来趋势**混合算法：结合PPO与其他强化学习方法（如DPO），提升效率。

2025-03-28 00:23:09 875

原创大模型微调之什么是PPO

PPO算法的重要性与概念重要性类比：PPO算法在大模型微调中至关重要，如同吃火锅的油碟、吃饺子的醋、汽车的刹车。虽不是核心算法，但能让模型调优过程更丰富，使输出更贴近生活，控制模型策略更新的节奏，避免训练不稳定。定义与应用领域：PPO全称近端策略优化算法（Proximal Policy Optimization），是强化学习领域广泛使用的策略梯度算法。常用于训练机器人、游戏AI等智能体，使其在与环境的交互中学习并改进策略，做出更好决策。大模型微调阶段对比：SFT与强化学习SFT的特点与局限。

2025-03-27 22:33:22 215

空空如也

空空如也