自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(232)
  • 收藏
  • 关注

原创 HippoRAG2-大语言模型长期记忆机制

一、研究背景与动机在快速变化的世界中,持续吸收、整合和运用知识是人类智能的核心能力,而人工智能系统要成为真正的人类级助手,必须具备类似的持续学习能力。大型语言模型(LLMs)虽在多个领域取得突破,但在长期记忆方面存在两大挑战:一是难以充分吸收新知识,二是容易出现“灾难性遗忘”(旧知识被新知识覆盖)。感知理解(Sense-making):解读复杂、不确定语境的能力(如理解长篇故事的逻辑);关联性(Associativity):在分散知识间建立多跳连接的能力(如通过多步推理回答问题)。

2025-08-22 07:00:00 335

原创 HippoRAG

欢迎关注v:数据分析能量站论文:https://arxiv.org/pdf/2405.14831。

2025-08-21 07:00:00 422

原创 GPT5-性能详细分析与对比-帮你更好了解

一、系统架构:多模型分工+实时路由快速响应模型负责处理日常大多数简单问题,优势是速度快、吞吐量高(能同时处理大量请求)。深度推理模型(gpt-5-thinking及mini、nano):专攻复杂问题(如数学推理、逻辑分析),其中:标准版(gpt-5-thinking)适合高难度任务;迷你版(mini)和纳米版(nano)更轻量,速度更快,尤其nano专为开发者优化;Pro版(gpt-5-thinking-pro)通过“并行计算”提升答案全面性,仅在ChatGPT中提供。实时路由器。

2025-08-15 07:00:00 1720

原创 百度-RAG与智能体工具结合方式-TURA

TURA的解决办法是:让AI为每个工具生成大量**模拟用户可能会问的问题**(比如为航班API生成“查后天的机票”“北京到上海的航班有哪些”等),再加上工具的官方描述,形成一个“语义标签包”。:现有RAG系统依赖**固定流程**,无法应对复杂、多维度的查询。比如用户问“明天从北京飞上海,选哪个航班性价比高,落地后怎么去迪士尼”,这个问题需要查实时航班(动态)、比价(多来源)、交通路线(静态网页),但RAG的固定工作流无法灵活协调这些不同类型的信息,更没法调用工具(如航班API)获取实时数据。

2025-08-12 07:00:00 543

原创 ICL-在prompt中,示例放在哪里有什么影响

一、核心发现:位置决定性能,早期位置普遍更优实验覆盖了分类、问答、算术推理、摘要生成等8项任务,以及不同规模的模型(如LLAMA3、MIXTRAL等),核心结果是:**演示样例放在提示靠前的位置(系统提示开头/结尾)时,模型性能通常优于靠后的位置(用户消息结尾),甚至超过默认的“用户消息开头”位置**。分类与问答任务:系统提示开头(ssp)的效果最稳定,例如在MMLU任务中,ssp位置比零样本(无演示样例)准确率提升18%;而用户消息结尾(eum)的效果最差,在SQuAD等任务中显著落后。算术推理任务。

2025-08-12 00:14:36 1102

原创 Agent全貌-自我进化

欢迎关注v:数据分析能量站一、自进化优化框架1. 优化目标智能体通过**自主迭代**提升四维能力:任务性能(精度/效率)泛化性(跨场景适应)资源效率(计算/存储)安全性(抗对抗攻击)2. 优化循环流程二、三大优化空间与关键技术1. 提示优化(Prompt Optimization)组件功能技术方案评估函数量化提示质量(任务相关度/清晰度)- 人工评分- LLM自评(LLM-as-Judge)优化函数改进提示文本- 遗传算法突变(Promptbreeder)- LLM迭代改写(OPRO)评估指标验证优化效果任

2025-08-11 07:00:00 600

原创 Agent-如何强化学习-Agent Lightning

《AgentLightning:一种解耦强化学习与智能体的通用优化框架》 摘要:AgentLightning提出了一种创新框架,通过完全解耦智能体执行与强化学习训练,实现了对各类AI智能体的高效优化。该框架采用MDP建模和统一数据接口,将智能体的复杂交互转化为标准化的轨迹数据;通过分层RL算法LightningRL,解决了多轮交互中的信用分配问题;借助训练-智能体分离架构,无需修改代码即可适配LangChain、AutoGen等不同框架开发的智能体。实验表明,在文本转SQL、RAG和数学工具调用三类任务中,

2025-08-11 07:00:00 1242

原创 Agent-自我进化-综述

欢迎关注v:数据分析能量站论文:https://arxiv.org/pdf/2507.21046核心背景:从“静态模型”到“自进化智能体”的转变现有大语言模型(LLMs)的局限:像GPT这类大语言模型虽然能力很强,但本质是“静态”的——训练完成后就固定了,遇到新任务、新知识或动态场景时,无法自己调整内部参数去适应。比如,一个训练于2023年的模型,可能难以自动理解2024年出现的新词汇或新事件,也无法在持续交互中“积累经验”。为什么需要“自进化智能体”?随着AI在开放环境(如实时交互、动态任务)中的应用增多

2025-08-06 00:28:15 1079

原创 Agent全貌-协作与进化智能系统

由多个自主智能体组成的分布式系统,每个智能体具备**感知、决策、执行**能力,通过通信与协作完成单一智能体无法解决的复杂任务。例如,自动驾驶车辆通过车联网(V2V)协作优化路线,避免拥堵。

2025-08-06 00:24:17 738

原创 Context Engineering-综述

摘要: 上下文工程(Context Engineering)是优化大语言模型(LLMs)性能的关键技术,通过动态管理结构化信息(如提示词、外部知识、历史交互等)提升模型的理解、生成与推理能力。不同于传统提示工程,它系统性地整合检索、处理和管理三大组件,形成从基础到应用的完整框架。核心应用包括检索增强生成(RAG)、记忆系统、工具集成推理及多智能体协作,显著解决了LLMs的知识固化、长文本处理低效等局限。未来需突破理论统一性、多模态集成、计算效率等挑战,以支持更复杂的AI应用。上下文工程将LLMs从“静态提示

2025-08-05 07:00:00 943

原创 AI4Research: AI在研究方面的应用介绍

这里的“科学理解”,指的是AI从科学文献(比如论文、研究报告)中提取、解读、整合信息的能力。目的是帮人或AI系统更快、更准地抓住文献里的关键概念、实验结果、理论逻辑等,不用再逐字逐句啃晦涩的专业内容。

2025-08-04 07:00:00 1623

原创 Agent全貌-行动空间

有限动作集合(如{左移, 右移, 跳跃})DQN (Atari游戏)游戏/菜单导航。

2025-08-02 07:00:00 1000

原创 Agent全貌-感知

人类通过五感(视觉/听觉/触觉等)将物理信号转化为神经信号 → 大脑整合为环境表征。

2025-08-01 07:00:00 1028

原创 Agent全貌-情感建模

欢迎关v:数据分析能量站一、情感建模的心理学基础1. 情感构成维度(图6.1)2. 情感的功能决策调制:杏仁核激活 → 调整风险偏好(恐惧时规避风险)。学习加速:高唤醒状态增强记忆巩固(多巴胺释放↑)。社会信号:面部表情/语调传递意图(如微笑表友好)。二、AI情感建模的三层框架1. 情感状态表示离散型:分类标签(如“愤怒”、“好奇”)→ 基于情感词典(NRC Emotion Lexicon)。连续型:PAD向量 \( \mathbf{e}_t = (v, a, d) \) → 可微分优化(如强化学习奖励调制

2025-07-31 07:00:00 429

原创 Agent全貌-奖励机制

环境直接提供的标量反馈(如游戏得分、任务完成信号)。

2025-07-30 07:00:00 1393

原创 Agent全貌-世界模型

1.

2025-07-29 07:00:00 544

原创 Agent全貌-记忆

欢迎关v:数据分析能量站。

2025-07-28 07:00:00 706

原创 Agent全貌-认知框架

靠引导性指令激活思路,比如 Chain-of-Thought(“一步步说理由”,像解数学题时写过程)、Step-Back Prompting(先提炼通用规则再应用,比如 “先想‘行程规划的基本原则’,再套用到具体案例”);- ICL(上下文内快速学习,比如给几个例子就会做题)- Voyager(积累技能库,像玩家存攻略)- Reflexion(反思错误并记录,避免重蹈覆辙)- 预训练(通用知识打底)- SFT/PEFT(适配特定领域)- RLHF/DPO(对齐人类偏好)

2025-07-27 13:43:14 859

原创 WebDancer-deep Research类智能体

实验结果清晰地表明:研究者提出的WebDancer(基于他们设计的数据构建和两阶段训练方法)在解决复杂信息检索任务时表现优异——不仅超过了基础框架,在开源模型中优势明显,甚至能媲美部分强闭源系统,且在更难的场景中依然稳健。这充分验证了他们构建Agent的方法是有效的。

2025-07-22 07:00:00 903

原创 A Survey of LLM × DATA-大模型与数据的关系

LLM和数据管理就像“互相成就”的搭档:数据管理通过处理、存储、服务数据,给LLM提供了“成长的基石”;LLM则凭借自身能力,成了数据管理的“高效工具”,让数据处理、分析、系统运行更简单、更智能。这种双向互动正在让两个领域都变得更强大——LLM越来越聪明,数据管理也越来越高效。

2025-07-21 07:00:00 1138

原创 Distilling LLM Agent into Small Models-大模型Agent能力蒸馏

现有研究中,为了让小模型(sLMs)拥有大模型(LLMs)的推理能力,主流方法是“思维链(CoT)蒸馏”:让小模型模仿大模型的“一步步推理过程”(比如解数学题时的分步演算)。这种方法在数学推理等任务中效果不错,现在已成为小模型训练的常用手段。为了让小模型更好地“举一反三”,近年的方法还加入了外部工具(比如查资料的“检索工具”、算题的“代码执行工具”),帮助小模型专注于“通用的推理思路”,而不是死记硬背知识或计算过程。

2025-07-18 00:32:37 573

原创 TaskCraft: Automated Generation of Agentic Tasks-智能体任务的自动生成

TaskCraft是一种自动化生成智能体任务的工作流,能够从网页、PDF、图像等多模态数据中生成"原子任务"(简单工具调用任务),并通过"深度扩展"(构建多步依赖任务)和"广度扩展"(合并多个子任务)生成复杂任务。该方法创新性地解决了现有智能体任务数据集依赖人工标注、规模受限的问题,通过工具上下文结构化描述(iT/R)确保任务质量验证。实验表明,TaskCraft生成的任务能有效提升智能体模型的工具调用和推理能力,并构建了包含3.6万个任务的公开数

2025-07-16 06:00:00 558

原创 ICL-Why Can GPT Learn In-Context? 背后的原理

欢迎关注v:数据分析能量站Language Models Implicitly Perform Gradient Descent as Meta-Optimizers》其核心贡献在于:**首次从数学和实证上证明,GPT等预训练语言模型的上下文学习能力,本质是模型在隐式执行梯度下降算法,扮演“元优化器”的角色——即通过上下文示例,自动生成调整自身推理行为的“虚拟梯度”,无需更新参数即可适配新任务**。

2025-07-09 07:30:00 505

原创 ICL-A Survey on In-context Learning

一、

2025-06-26 01:28:52 742

原创 Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向

按预设规则执行固定推理流程,适合结构化场景(如企业合规审查)。

2025-06-25 00:46:33 657

原创 RAG分类总结

✅ 实现成本低(仅需向量数据库+基础LLM)✅ 适用于简单事实型问答(如FAQ、知识库查询)

2025-06-24 07:00:00 727

原创 大模型LLM-Prompt-交互方式的悄然变化

本质上是将AI从「工具」重构为「认知伙伴」的实践指南。从心态转变到动态优化,从多智能体协作到规则驱动对齐,这些方法不仅提升了交互效率,更重塑了人与AI的协作范式。随着Constitutional AI框架与多智能体系统的成熟,Prompt将进一步从「显性指令」进化为「隐性协同」,最终实现人类与AI的无缝融合,共同探索智能时代的无限可能。有一个很深的体会,AI会替代80%的人和工作,但也让80%人,有机会变为20%的top专业人员。

2025-06-23 07:00:00 495

原创 DeepSeek-R1-0528:开源模型的性能跃迁与技术革新

通过蒸馏R1-0528的思维链(Chain-of-Thought)到Qwen3-8B,生成小型版本DeepSeek-R1-0528-Qwen3-8B,其在AIME 2024中准确率超越Qwen3-8B达10%,逼平Qwen3-235B,且可在单块40GB显存GPU上运行。:通过强化学习(RL)微调奖励函数,显著提升复杂推理任务的准确性,例如在AIME 2025测试中,模型平均每题使用的token量从12K增至23K,准确率从70%跃升至87.5%。

2025-06-19 07:30:00 827

原创 大模型-V-JEPA 2-介绍

V-JEPA 2通过**物理世界建模**、**长时序预测**、**零样本控制**和**高效自监督学习**四大核心能力,填补了现有大模型在物理交互、动态推理和实时控制领域的空白。能力维度V-JEPA 2现有大模型(如GPT-4V、Gemini)物理推理能识别物理不合理现象(IntPhys 2准确率接近人类)物理常识薄弱,时空量化错误率超50%时序预测支持16秒长视频预测,分层时空建模处理短序列(<2秒),缺乏多尺度表征机器人控制零样本物理任务执行,成功率65%-80%

2025-06-19 01:09:15 1372

原创 Trends-Artificial Intelligence “互联网女皇” 玛丽・米克尔发布 340 页 AI 趋势报告

2025 年,被称为 “互联网女皇” 的玛丽・米克尔(Mary Meeker)发布了一份聚焦人工智能领域的重磅报告 ——《Trends – Artificial Intelligence》。玛丽・米克尔作为风投公司 Bond 的创始人兼普通合伙人,在科技投资分析领域久负盛名,她曾精准预测谷歌、苹果等科技巨头的崛起,其过往的年度互联网趋势报告也一直是科技行业发展的重要参考指标。此次她将目光聚焦 AI,推出的这份 340 页报告,从多维度为人们呈现了 AI 领域的发展现状与未来趋势。

2025-06-18 08:00:00 701

原创 新的编辑图像产品-Edit Images with Flux.1 Kontext AI

德国黑森林实验室开发的FluxKontextImageGenerator是一款基于流匹配架构的多模态图像生成模型,通过双流/单流混合架构和三维旋转位置编码技术,实现了高精度的角色保持和局部编辑功能。该模型支持文本和图像混合输入,在3-5秒内生成1024x1024分辨率图像,并能进行多轮编辑保持视觉连贯性。提供max、pro、dev三个版本,适用于专业设计、企业应用和开发者研究。在角色一致性、文本编辑等关键指标上超越GPT-Image-1和Gemini2.0等竞品,有望成为行业新标准。

2025-06-17 07:30:00 583

原创 coze-搭建大厂八卦聊一聊

未来让我们在闲暇时间有瓜可吃,我们可以利用coze大家一套八卦收集流程。八卦的收集渠道有很多包括微博、抖音、小红书等等。小红书作为重要的集散地,我们以小红书为例进行说明。

2025-06-16 07:00:00 636

原创 coze-总结arxiv每日计算机最新论文

以下内容是读取之后的总结用户想获取最新论文,调用 ts-get_new_arxiv_paper-get_new_arxiv_paper 函数获取当日计算机领域最新论文。

2025-06-09 07:30:00 1659

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-10

一、超参数的核心作用与类型关键影响:超参数直接决定LLM优化的搜索效率、泛化能力及组件协同效果,如聚合函数(Agg(·))影响文本反馈的合成质量,批量大小(Batch Size)平衡噪声与计算成本。核心类型通用型:批量大小、动量(类比数值优化);代理系统特有:角色分配、上下文示范选择、工具调用调度等,涉及多组件耦合(如提示策略与工具选择联动)。二、当前挑战调参依赖启发式试错缺乏理论指导,多通过手动调整(如温度参数τ、提示长度),计算成本高且易陷入局部最优。

2025-06-07 07:00:00 610

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-9

一、代理优化的层级架构:从基础到复杂的递进基础层:提示优化(Prompt Optimization)核心目标:提升LLM节点的基础交互能力,解决“如何让代理理解指令并正确响应”的问题。优化方向提示词结构(如明确任务目标、约束条件、格式要求);上下文管理(如历史对话记忆、知识注入的连贯性);指令清晰度(避免歧义,引导LLM生成符合预期的输出)。类比场景:类似给人类员工写清晰的工作指南,确保“基础操作不出错”。衍生分支:三类高阶优化方向。

2025-06-06 07:00:00 1556

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-8

行动空间定义交互边界,从语言到物理世界逐步拓展;行动学习通过多范式优化策略,提升环境适应性;工具学习借助外部资源突破能力瓶颈,模拟人类智慧的核心特征。未来方向通用行动框架:设计兼容离散与连续动作、支持多模态交互的统一模型;神经科学启发:模仿人类运动皮层机制,优化动作序列生成的实时性与流畅性;伦理与安全:建立工具使用的规范体系,防止滥用(如自主武器系统的行动控制)。通过深化三大范式的协同,智能体将逐步实现从“任务执行者”到“环境适应者”的进化,为通用人工智能奠定行动基础。

2025-06-05 07:00:00 674

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-7

尽管越来越多研究致力于构建支持多感知能力输入输出的统一多模态模型(如[543,590]),但智能体感知作为自主系统的基石,在有效解读和整合多模态数据方面仍面临重大挑战。当前方法在表示学习、对齐和融合层面存在持续性问题,阻碍了鲁棒且可泛化的感知系统发展。一、核心挑战表示学习的局限性现有表征方法难以捕捉多模态数据的复杂细微特征(如视觉图像的纹理细节与语音情感的动态变化),尤其在高维感官输入需要保留关键语义的抽象场景中,易导致信息丢失或误编码。跨模态对齐难题。

2025-06-04 07:00:00 694

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-6

摘要:情感建模是提升大语言模型(LLM)智能体性能的关键方向。研究显示情感提示能显著改善任务效果,多模态方法如Emotion-LLaMA模型通过整合音频、视觉等数据增强情感识别能力。情感心理学理论为LLM提供四大建模工具:分类理论(离散情感标签)、维度模型(连续情感空间)、混合框架(复合情感表征)和神经认知机制(双过程架构)。当前技术已实现文本情感分析、多模态情感融合和动态概率建模,但在隐性情感识别和文化差异处理上仍存在挑战。情感AI发展需平衡技术创新与伦理风险,明确区分"情感模拟"与真

2025-06-03 07:00:00 705

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-5

本文探讨了人类与AI智能体的奖励机制差异及智能体奖励范式的设计。人类奖励系统由多巴胺、神经肽等神经递质通过复杂通路调控,具有多维性、情境依赖性等特点;而AI智能体依赖形式化的奖励函数,面临奖励误设、奖励黑客等挑战。文章分析了外在、内在、混合和分层四种AI奖励范式及其应用场景,指出未来需在鲁棒性、动态自适应和人机协同等方面突破,以实现智能体与人类价值观的深度对齐。这一研究对构建可靠AI系统具有重要意义。

2025-05-30 08:00:00 1341

原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-4

摘要:本文探讨了AI世界模型如何借鉴人类认知中的"心理模型"机制,实现环境预测与决策优化。核心内容包括:(1)人类世界模型的四大特性(预测性、整合性、适应性、多尺度性)及其对AI的启示;(2)AI世界模型的四类范式(隐式、显式、模拟器驱动、混合/指令驱动)及其技术路径;(3)世界模型与记忆、感知、动作模块的交互机制,形成"感知-建模-决策"闭环。研究指出,未来突破需融合神经网络的模式识别能力与符号系统的可解释性,解决模型偏差、计算效率等挑战,最终构建跨时空尺度的通用认

2025-05-29 08:00:00 973

gpt5性能表现各方面表现

gpt5性能表现各方面表现

2025-08-10

【自然语言处理】大型语言模型的情境工程综述:构建智能系统的信息优化与管理框架设计了情境工程(

内容概要:本文全面探讨了情境工程(Context Engineering)作为一门正式学科,旨在系统设计、优化和管理大语言模型(LLMs)的信息负载。通过对超过1400篇研究论文的分析,文章将情境工程分解为基础组件(情境检索与生成、情境处理、情境管理)和复杂实现(检索增强生成、记忆系统、工具集成推理、多智能体系统)。此外,文章还强调了隐私保护机制、透明度和责任框架的重要性,并指出了未来研究的关键挑战,如解决模型能力的根本不对称性和确保系统的可靠性和社会价值一致性。 适合人群:对大语言模型及其应用有浓厚兴趣的研究人员、工程师和科学家,特别是那些关注情境工程在智能系统中的作用的人士。 使用场景及目标:①理解情境工程的基础组件和技术实现;②探索如何利用情境工程优化LLMs的应用,包括但不限于检索增强生成、记忆系统、工具集成推理和多智能体系统;③研究隐私保护、透明度和责任框架的设计与实施。 其他说明:文章指出,随着LLMs在关键社会功能中的集成度不断提高,成功的情境工程需要持续的投资于基础研究、跨学科合作以及负责任的发展实践,以确保这些系统既有益又可靠,并与人类价值观保持一致。

2025-08-03

### 【自然语言处理】WebDancer:面向自主信息检索代理的端到端训练框架设计与实现

内容概要:本文介绍了WebDancer,一种用于自主信息检索代理(web agent)的新范式,旨在解决复杂现实问题所需的深度信息检索和多步推理。WebDancer基于ReAct框架,通过四个关键阶段构建端到端的代理系统:1) 浏览数据构造;2) 轨迹采样;3) 监督微调以实现有效的冷启动;4) 强化学习以增强泛化能力。文中提出了两种高质量数据集合成方法——CRAWLQA和E2HQA,以及采用拒绝采样与轨迹过滤来提升数据质量。实验结果显示WebDancer在GAIA和WebWalkerQA基准测试中表现优异,证明了该训练范式的有效性。此外,还探讨了未来工作的潜在方向,如增加工具种类、任务泛化、高效利用大规模数据集等。 适合人群:对机器学习、自然语言处理、智能代理系统感兴趣的科研人员及工程师。 使用场景及目标:①研究如何从零开始构建能够进行多轮信息检索的web代理;②探索通过端到端强化学习训练代理的能力;③提高代理在复杂交互模式下的鲁棒性和适应性。 其他说明:WebDancer不仅在技术上有所创新,在应用场景方面也有很大潜力,比如科学文献检索、教育辅助、生产力工具等。但同时也要注意防止误导性信息传播等问题,强调透明度和负责任部署的重要性。

2025-07-20

llm在数据方面应用,以及数据对lm赋能

llm在数据方面应用,以及数据对lm赋能

2025-07-19

### 文章标题: 【自然语言处理】Agent Distillation框架:通过检索和代码工具将大型语言模型代理行为蒸馏到小型模型以提升任务解决能力

内容概要:本文提出了一种名为Agent Distillation的新框架,旨在将大型语言模型(LLM)的推理能力和任务解决行为蒸馏到小型语言模型(sLM)。该方法不仅提高了小型模型的推理能力,还赋予它们使用检索和代码工具的能力,从而增强了解决复杂问题的能力。研究通过引入“首次思考前缀”(first-thought prefix)来提升教师模型生成轨迹的质量,并采用“自一致性动作生成”(self-consistent action generation)以提高学生模型在测试时的鲁棒性。实验结果显示,经过蒸馏的小型模型(如0.5B、1.5B、3B参数规模)在多个事实推理和数学推理任务上表现出色,甚至可以与更大规模的模型(如32B参数规模)相媲美。 适合人群:对自然语言处理、深度学习、模型压缩等领域感兴趣的科研人员和技术开发者。 使用场景及目标:①使小型语言模型具备大型语言模型的推理能力和工具使用能力;②提高小型模型在复杂任务上的表现,特别是在需要动态信息获取和代码执行的任务中;③减少模型计算资源消耗,提高实际部署效率。 阅读建议:本文详细介绍了Agent Distillation的工作机制及其改进方法,建议读者重点关注“首次思考前缀”和“自一致性动作生成”的具体实现方式,并结合实验结果理解这些技术对模型性能的影响。此外,对于希望深入研究模型蒸馏和强化学习的读者来说,文中提到的相关文献也是重要的参考资料。

2025-07-18

【自然语言处理】基于Transformer的GPT模型在情境学习中的元优化机制解析:与显式微调的比较及动量注意力机制的设计

内容概要:本文探讨了大语言模型(如GPT)的上下文学习(ICL)能力,揭示其工作机制与梯度下降的隐含关系。研究指出,ICL可视为一种元优化过程,其中预训练的GPT模型作为元优化器,根据示范样例生成元梯度,并通过注意力机制将这些元梯度应用于原始模型,从而构建ICL模型。作者还提出了一种基于动量的注意力机制,实验表明该机制能显著提升性能。通过六个分类任务的实验证明,ICL的行为与显式微调非常相似,从多个角度支持了ICL作为隐式微调的理解。 适合人群:对自然语言处理、深度学习尤其是Transformer架构感兴趣的科研人员和工程师。 使用场景及目标:①理解大型预训练语言模型(如GPT)的上下文学习能力;②探讨上下文学习与显式微调之间的联系;③为未来模型设计提供新思路,如引入动量机制改进注意力机制。 其他说明:研究基于Transformer架构,未涉及其他架构如LSTM的上下文学习机制。实验主要集中在分类任务上,对于多选题和开放生成任务的应用还有待进一步探索。此外,研究中使用的GPT模型参数量不超过27亿,更大规模模型的分析留待未来工作。

2025-07-09

Trends - Artificial Intelligence ai趋势报告

Trends - Artificial Intelligence ai趋势报告

2025-06-14

### Seed-Thinking技术报告详细介绍

### Seed-Thinking技术报告详细介绍

2025-04-28

这篇文章探讨了通过引入自动化的链式行动(AutoCoA)框架来增强大型代理模型(LAMs)的能力

AGENT MODELS: INTERNALIZING CHAIN-OF-ACTION GENERATION INTO REASONING MODELS内容概要:本文介绍了大型智能体模型(LAMs)的发展及其内部化动作链(CoA)生成的研究。传统智能体工作流依赖外部提示来管理与工具和环境的交互,限制了推理模型的自主性。为解决这一问题,作者提出了AutoCoA框架,结合监督微调(SFT)和强化学习(RL),使模型能够在推理过程中自主决定何时以及如何使用外部工具。AutoCoA框架的主要组件包括步骤级动作触发、轨迹级CoA优化和内部世界模型,以减少实际环境交互成本。实验表明,AutoCoA训练的智能体模型在需要长期推理和多步动作的任务完成率上显著优于基于ReAct的工作流。 适合人群:对智能体模型、推理模型及强化学习感兴趣的科研人员和工程师,尤其是关注智能体如何结合工具使用进行复杂任务处理的研究者。 使用场景及目标:①研究智能体如何在推理过程中自主决定使用外部工具;②探索如何通过内部化CoA生成提升智能体的多轮工具使用能力;③评估智能体在复杂知识搜索任务中的表现。 其他说明:本文不仅探讨了智能体模型的技术实现,还展望了未来发展方向,如开放任务处理、强化微调(RFT)的应用以及智能体操作系统的构建。此外,文中还详细描述了实验设置、比较方法及结果分析,提供了丰富的数据支持。

2025-04-28

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

2025-01-15

蒙特卡洛树结合llm模型论文

蒙特卡洛树结合llm模型论文

2025-01-14

rag发展总结综述,介绍4中进阶方式

rag发展总结综述,介绍4中进阶方式

2025-01-12

phi4-技术报告,详细介绍模型设计原理

phi4-技术报告,详细介绍模型设计原理

2024-12-25

Qwen2.5 Technical Report 详细技术报告

Qwen2.5 Technical Report 详细技术报告

2024-12-25

Teaching Small Language Models to Reason 小模型如何在大模型中生效

Teaching Small Language Models to Reason 小模型如何在大模型中生效

2024-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除