- 博客(232)
- 收藏
- 关注
原创 HippoRAG2-大语言模型长期记忆机制
一、研究背景与动机在快速变化的世界中,持续吸收、整合和运用知识是人类智能的核心能力,而人工智能系统要成为真正的人类级助手,必须具备类似的持续学习能力。大型语言模型(LLMs)虽在多个领域取得突破,但在长期记忆方面存在两大挑战:一是难以充分吸收新知识,二是容易出现“灾难性遗忘”(旧知识被新知识覆盖)。感知理解(Sense-making):解读复杂、不确定语境的能力(如理解长篇故事的逻辑);关联性(Associativity):在分散知识间建立多跳连接的能力(如通过多步推理回答问题)。
2025-08-22 07:00:00
335
原创 GPT5-性能详细分析与对比-帮你更好了解
一、系统架构:多模型分工+实时路由快速响应模型负责处理日常大多数简单问题,优势是速度快、吞吐量高(能同时处理大量请求)。深度推理模型(gpt-5-thinking及mini、nano):专攻复杂问题(如数学推理、逻辑分析),其中:标准版(gpt-5-thinking)适合高难度任务;迷你版(mini)和纳米版(nano)更轻量,速度更快,尤其nano专为开发者优化;Pro版(gpt-5-thinking-pro)通过“并行计算”提升答案全面性,仅在ChatGPT中提供。实时路由器。
2025-08-15 07:00:00
1720
原创 百度-RAG与智能体工具结合方式-TURA
TURA的解决办法是:让AI为每个工具生成大量**模拟用户可能会问的问题**(比如为航班API生成“查后天的机票”“北京到上海的航班有哪些”等),再加上工具的官方描述,形成一个“语义标签包”。:现有RAG系统依赖**固定流程**,无法应对复杂、多维度的查询。比如用户问“明天从北京飞上海,选哪个航班性价比高,落地后怎么去迪士尼”,这个问题需要查实时航班(动态)、比价(多来源)、交通路线(静态网页),但RAG的固定工作流无法灵活协调这些不同类型的信息,更没法调用工具(如航班API)获取实时数据。
2025-08-12 07:00:00
543
原创 ICL-在prompt中,示例放在哪里有什么影响
一、核心发现:位置决定性能,早期位置普遍更优实验覆盖了分类、问答、算术推理、摘要生成等8项任务,以及不同规模的模型(如LLAMA3、MIXTRAL等),核心结果是:**演示样例放在提示靠前的位置(系统提示开头/结尾)时,模型性能通常优于靠后的位置(用户消息结尾),甚至超过默认的“用户消息开头”位置**。分类与问答任务:系统提示开头(ssp)的效果最稳定,例如在MMLU任务中,ssp位置比零样本(无演示样例)准确率提升18%;而用户消息结尾(eum)的效果最差,在SQuAD等任务中显著落后。算术推理任务。
2025-08-12 00:14:36
1102
原创 Agent全貌-自我进化
欢迎关注v:数据分析能量站一、自进化优化框架1. 优化目标智能体通过**自主迭代**提升四维能力:任务性能(精度/效率)泛化性(跨场景适应)资源效率(计算/存储)安全性(抗对抗攻击)2. 优化循环流程二、三大优化空间与关键技术1. 提示优化(Prompt Optimization)组件功能技术方案评估函数量化提示质量(任务相关度/清晰度)- 人工评分- LLM自评(LLM-as-Judge)优化函数改进提示文本- 遗传算法突变(Promptbreeder)- LLM迭代改写(OPRO)评估指标验证优化效果任
2025-08-11 07:00:00
600
原创 Agent-如何强化学习-Agent Lightning
《AgentLightning:一种解耦强化学习与智能体的通用优化框架》 摘要:AgentLightning提出了一种创新框架,通过完全解耦智能体执行与强化学习训练,实现了对各类AI智能体的高效优化。该框架采用MDP建模和统一数据接口,将智能体的复杂交互转化为标准化的轨迹数据;通过分层RL算法LightningRL,解决了多轮交互中的信用分配问题;借助训练-智能体分离架构,无需修改代码即可适配LangChain、AutoGen等不同框架开发的智能体。实验表明,在文本转SQL、RAG和数学工具调用三类任务中,
2025-08-11 07:00:00
1242
原创 Agent-自我进化-综述
欢迎关注v:数据分析能量站论文:https://arxiv.org/pdf/2507.21046核心背景:从“静态模型”到“自进化智能体”的转变现有大语言模型(LLMs)的局限:像GPT这类大语言模型虽然能力很强,但本质是“静态”的——训练完成后就固定了,遇到新任务、新知识或动态场景时,无法自己调整内部参数去适应。比如,一个训练于2023年的模型,可能难以自动理解2024年出现的新词汇或新事件,也无法在持续交互中“积累经验”。为什么需要“自进化智能体”?随着AI在开放环境(如实时交互、动态任务)中的应用增多
2025-08-06 00:28:15
1079
原创 Agent全貌-协作与进化智能系统
由多个自主智能体组成的分布式系统,每个智能体具备**感知、决策、执行**能力,通过通信与协作完成单一智能体无法解决的复杂任务。例如,自动驾驶车辆通过车联网(V2V)协作优化路线,避免拥堵。
2025-08-06 00:24:17
738
原创 Context Engineering-综述
摘要: 上下文工程(Context Engineering)是优化大语言模型(LLMs)性能的关键技术,通过动态管理结构化信息(如提示词、外部知识、历史交互等)提升模型的理解、生成与推理能力。不同于传统提示工程,它系统性地整合检索、处理和管理三大组件,形成从基础到应用的完整框架。核心应用包括检索增强生成(RAG)、记忆系统、工具集成推理及多智能体协作,显著解决了LLMs的知识固化、长文本处理低效等局限。未来需突破理论统一性、多模态集成、计算效率等挑战,以支持更复杂的AI应用。上下文工程将LLMs从“静态提示
2025-08-05 07:00:00
943
原创 AI4Research: AI在研究方面的应用介绍
这里的“科学理解”,指的是AI从科学文献(比如论文、研究报告)中提取、解读、整合信息的能力。目的是帮人或AI系统更快、更准地抓住文献里的关键概念、实验结果、理论逻辑等,不用再逐字逐句啃晦涩的专业内容。
2025-08-04 07:00:00
1623
原创 Agent全貌-情感建模
欢迎关v:数据分析能量站一、情感建模的心理学基础1. 情感构成维度(图6.1)2. 情感的功能决策调制:杏仁核激活 → 调整风险偏好(恐惧时规避风险)。学习加速:高唤醒状态增强记忆巩固(多巴胺释放↑)。社会信号:面部表情/语调传递意图(如微笑表友好)。二、AI情感建模的三层框架1. 情感状态表示离散型:分类标签(如“愤怒”、“好奇”)→ 基于情感词典(NRC Emotion Lexicon)。连续型:PAD向量 \( \mathbf{e}_t = (v, a, d) \) → 可微分优化(如强化学习奖励调制
2025-07-31 07:00:00
429
原创 Agent全貌-认知框架
靠引导性指令激活思路,比如 Chain-of-Thought(“一步步说理由”,像解数学题时写过程)、Step-Back Prompting(先提炼通用规则再应用,比如 “先想‘行程规划的基本原则’,再套用到具体案例”);- ICL(上下文内快速学习,比如给几个例子就会做题)- Voyager(积累技能库,像玩家存攻略)- Reflexion(反思错误并记录,避免重蹈覆辙)- 预训练(通用知识打底)- SFT/PEFT(适配特定领域)- RLHF/DPO(对齐人类偏好)
2025-07-27 13:43:14
859
原创 WebDancer-deep Research类智能体
实验结果清晰地表明:研究者提出的WebDancer(基于他们设计的数据构建和两阶段训练方法)在解决复杂信息检索任务时表现优异——不仅超过了基础框架,在开源模型中优势明显,甚至能媲美部分强闭源系统,且在更难的场景中依然稳健。这充分验证了他们构建Agent的方法是有效的。
2025-07-22 07:00:00
903
原创 A Survey of LLM × DATA-大模型与数据的关系
LLM和数据管理就像“互相成就”的搭档:数据管理通过处理、存储、服务数据,给LLM提供了“成长的基石”;LLM则凭借自身能力,成了数据管理的“高效工具”,让数据处理、分析、系统运行更简单、更智能。这种双向互动正在让两个领域都变得更强大——LLM越来越聪明,数据管理也越来越高效。
2025-07-21 07:00:00
1138
原创 Distilling LLM Agent into Small Models-大模型Agent能力蒸馏
现有研究中,为了让小模型(sLMs)拥有大模型(LLMs)的推理能力,主流方法是“思维链(CoT)蒸馏”:让小模型模仿大模型的“一步步推理过程”(比如解数学题时的分步演算)。这种方法在数学推理等任务中效果不错,现在已成为小模型训练的常用手段。为了让小模型更好地“举一反三”,近年的方法还加入了外部工具(比如查资料的“检索工具”、算题的“代码执行工具”),帮助小模型专注于“通用的推理思路”,而不是死记硬背知识或计算过程。
2025-07-18 00:32:37
573
原创 TaskCraft: Automated Generation of Agentic Tasks-智能体任务的自动生成
TaskCraft是一种自动化生成智能体任务的工作流,能够从网页、PDF、图像等多模态数据中生成"原子任务"(简单工具调用任务),并通过"深度扩展"(构建多步依赖任务)和"广度扩展"(合并多个子任务)生成复杂任务。该方法创新性地解决了现有智能体任务数据集依赖人工标注、规模受限的问题,通过工具上下文结构化描述(iT/R)确保任务质量验证。实验表明,TaskCraft生成的任务能有效提升智能体模型的工具调用和推理能力,并构建了包含3.6万个任务的公开数
2025-07-16 06:00:00
558
原创 ICL-Why Can GPT Learn In-Context? 背后的原理
欢迎关注v:数据分析能量站Language Models Implicitly Perform Gradient Descent as Meta-Optimizers》其核心贡献在于:**首次从数学和实证上证明,GPT等预训练语言模型的上下文学习能力,本质是模型在隐式执行梯度下降算法,扮演“元优化器”的角色——即通过上下文示例,自动生成调整自身推理行为的“虚拟梯度”,无需更新参数即可适配新任务**。
2025-07-09 07:30:00
505
原创 Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向
按预设规则执行固定推理流程,适合结构化场景(如企业合规审查)。
2025-06-25 00:46:33
657
原创 大模型LLM-Prompt-交互方式的悄然变化
本质上是将AI从「工具」重构为「认知伙伴」的实践指南。从心态转变到动态优化,从多智能体协作到规则驱动对齐,这些方法不仅提升了交互效率,更重塑了人与AI的协作范式。随着Constitutional AI框架与多智能体系统的成熟,Prompt将进一步从「显性指令」进化为「隐性协同」,最终实现人类与AI的无缝融合,共同探索智能时代的无限可能。有一个很深的体会,AI会替代80%的人和工作,但也让80%人,有机会变为20%的top专业人员。
2025-06-23 07:00:00
495
原创 DeepSeek-R1-0528:开源模型的性能跃迁与技术革新
通过蒸馏R1-0528的思维链(Chain-of-Thought)到Qwen3-8B,生成小型版本DeepSeek-R1-0528-Qwen3-8B,其在AIME 2024中准确率超越Qwen3-8B达10%,逼平Qwen3-235B,且可在单块40GB显存GPU上运行。:通过强化学习(RL)微调奖励函数,显著提升复杂推理任务的准确性,例如在AIME 2025测试中,模型平均每题使用的token量从12K增至23K,准确率从70%跃升至87.5%。
2025-06-19 07:30:00
827
原创 大模型-V-JEPA 2-介绍
V-JEPA 2通过**物理世界建模**、**长时序预测**、**零样本控制**和**高效自监督学习**四大核心能力,填补了现有大模型在物理交互、动态推理和实时控制领域的空白。能力维度V-JEPA 2现有大模型(如GPT-4V、Gemini)物理推理能识别物理不合理现象(IntPhys 2准确率接近人类)物理常识薄弱,时空量化错误率超50%时序预测支持16秒长视频预测,分层时空建模处理短序列(<2秒),缺乏多尺度表征机器人控制零样本物理任务执行,成功率65%-80%
2025-06-19 01:09:15
1372
原创 Trends-Artificial Intelligence “互联网女皇” 玛丽・米克尔发布 340 页 AI 趋势报告
2025 年,被称为 “互联网女皇” 的玛丽・米克尔(Mary Meeker)发布了一份聚焦人工智能领域的重磅报告 ——《Trends – Artificial Intelligence》。玛丽・米克尔作为风投公司 Bond 的创始人兼普通合伙人,在科技投资分析领域久负盛名,她曾精准预测谷歌、苹果等科技巨头的崛起,其过往的年度互联网趋势报告也一直是科技行业发展的重要参考指标。此次她将目光聚焦 AI,推出的这份 340 页报告,从多维度为人们呈现了 AI 领域的发展现状与未来趋势。
2025-06-18 08:00:00
701
原创 新的编辑图像产品-Edit Images with Flux.1 Kontext AI
德国黑森林实验室开发的FluxKontextImageGenerator是一款基于流匹配架构的多模态图像生成模型,通过双流/单流混合架构和三维旋转位置编码技术,实现了高精度的角色保持和局部编辑功能。该模型支持文本和图像混合输入,在3-5秒内生成1024x1024分辨率图像,并能进行多轮编辑保持视觉连贯性。提供max、pro、dev三个版本,适用于专业设计、企业应用和开发者研究。在角色一致性、文本编辑等关键指标上超越GPT-Image-1和Gemini2.0等竞品,有望成为行业新标准。
2025-06-17 07:30:00
583
原创 coze-搭建大厂八卦聊一聊
未来让我们在闲暇时间有瓜可吃,我们可以利用coze大家一套八卦收集流程。八卦的收集渠道有很多包括微博、抖音、小红书等等。小红书作为重要的集散地,我们以小红书为例进行说明。
2025-06-16 07:00:00
636
原创 coze-总结arxiv每日计算机最新论文
以下内容是读取之后的总结用户想获取最新论文,调用 ts-get_new_arxiv_paper-get_new_arxiv_paper 函数获取当日计算机领域最新论文。
2025-06-09 07:30:00
1659
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-10
一、超参数的核心作用与类型关键影响:超参数直接决定LLM优化的搜索效率、泛化能力及组件协同效果,如聚合函数(Agg(·))影响文本反馈的合成质量,批量大小(Batch Size)平衡噪声与计算成本。核心类型通用型:批量大小、动量(类比数值优化);代理系统特有:角色分配、上下文示范选择、工具调用调度等,涉及多组件耦合(如提示策略与工具选择联动)。二、当前挑战调参依赖启发式试错缺乏理论指导,多通过手动调整(如温度参数τ、提示长度),计算成本高且易陷入局部最优。
2025-06-07 07:00:00
610
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-9
一、代理优化的层级架构:从基础到复杂的递进基础层:提示优化(Prompt Optimization)核心目标:提升LLM节点的基础交互能力,解决“如何让代理理解指令并正确响应”的问题。优化方向提示词结构(如明确任务目标、约束条件、格式要求);上下文管理(如历史对话记忆、知识注入的连贯性);指令清晰度(避免歧义,引导LLM生成符合预期的输出)。类比场景:类似给人类员工写清晰的工作指南,确保“基础操作不出错”。衍生分支:三类高阶优化方向。
2025-06-06 07:00:00
1556
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-8
行动空间定义交互边界,从语言到物理世界逐步拓展;行动学习通过多范式优化策略,提升环境适应性;工具学习借助外部资源突破能力瓶颈,模拟人类智慧的核心特征。未来方向通用行动框架:设计兼容离散与连续动作、支持多模态交互的统一模型;神经科学启发:模仿人类运动皮层机制,优化动作序列生成的实时性与流畅性;伦理与安全:建立工具使用的规范体系,防止滥用(如自主武器系统的行动控制)。通过深化三大范式的协同,智能体将逐步实现从“任务执行者”到“环境适应者”的进化,为通用人工智能奠定行动基础。
2025-06-05 07:00:00
674
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-7
尽管越来越多研究致力于构建支持多感知能力输入输出的统一多模态模型(如[543,590]),但智能体感知作为自主系统的基石,在有效解读和整合多模态数据方面仍面临重大挑战。当前方法在表示学习、对齐和融合层面存在持续性问题,阻碍了鲁棒且可泛化的感知系统发展。一、核心挑战表示学习的局限性现有表征方法难以捕捉多模态数据的复杂细微特征(如视觉图像的纹理细节与语音情感的动态变化),尤其在高维感官输入需要保留关键语义的抽象场景中,易导致信息丢失或误编码。跨模态对齐难题。
2025-06-04 07:00:00
694
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-6
摘要:情感建模是提升大语言模型(LLM)智能体性能的关键方向。研究显示情感提示能显著改善任务效果,多模态方法如Emotion-LLaMA模型通过整合音频、视觉等数据增强情感识别能力。情感心理学理论为LLM提供四大建模工具:分类理论(离散情感标签)、维度模型(连续情感空间)、混合框架(复合情感表征)和神经认知机制(双过程架构)。当前技术已实现文本情感分析、多模态情感融合和动态概率建模,但在隐性情感识别和文化差异处理上仍存在挑战。情感AI发展需平衡技术创新与伦理风险,明确区分"情感模拟"与真
2025-06-03 07:00:00
705
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-5
本文探讨了人类与AI智能体的奖励机制差异及智能体奖励范式的设计。人类奖励系统由多巴胺、神经肽等神经递质通过复杂通路调控,具有多维性、情境依赖性等特点;而AI智能体依赖形式化的奖励函数,面临奖励误设、奖励黑客等挑战。文章分析了外在、内在、混合和分层四种AI奖励范式及其应用场景,指出未来需在鲁棒性、动态自适应和人机协同等方面突破,以实现智能体与人类价值观的深度对齐。这一研究对构建可靠AI系统具有重要意义。
2025-05-30 08:00:00
1341
原创 Agent目前最全综述-ADVANCES AND CHALLENGES IN FOUNDATION AGENTS-4
摘要:本文探讨了AI世界模型如何借鉴人类认知中的"心理模型"机制,实现环境预测与决策优化。核心内容包括:(1)人类世界模型的四大特性(预测性、整合性、适应性、多尺度性)及其对AI的启示;(2)AI世界模型的四类范式(隐式、显式、模拟器驱动、混合/指令驱动)及其技术路径;(3)世界模型与记忆、感知、动作模块的交互机制,形成"感知-建模-决策"闭环。研究指出,未来突破需融合神经网络的模式识别能力与符号系统的可解释性,解决模型偏差、计算效率等挑战,最终构建跨时空尺度的通用认
2025-05-29 08:00:00
973
【自然语言处理】大型语言模型的情境工程综述:构建智能系统的信息优化与管理框架设计了情境工程(
2025-08-03
### 【自然语言处理】WebDancer:面向自主信息检索代理的端到端训练框架设计与实现
2025-07-20
### 文章标题: 【自然语言处理】Agent Distillation框架:通过检索和代码工具将大型语言模型代理行为蒸馏到小型模型以提升任务解决能力
2025-07-18
【自然语言处理】基于Transformer的GPT模型在情境学习中的元优化机制解析:与显式微调的比较及动量注意力机制的设计
2025-07-09
这篇文章探讨了通过引入自动化的链式行动(AutoCoA)框架来增强大型代理模型(LAMs)的能力
2025-04-28
multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving
2025-01-15
Teaching Small Language Models to Reason 小模型如何在大模型中生效
2024-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人