- 博客(1457)
- 收藏
- 关注
原创 特斯拉FSD的“终极对手”来了!全球首个导航世界模型,100%端到端,一个模型干翻一个军团!
为什么需要这个算法?--自动驾驶世界模型预计将在三个核心维度上有效工作:状态、行动和奖励。然而,现有的模型通常仅限于有限的状态模式、短视频序列、不精确的动作控制和缺乏奖励意识。
2025-11-24 17:25:19
312
原创 你的Agent为什么不够聪明?因为它不会“左右互搏”!斯坦福Agent0,让推理能力飙升24%!
当前,大语言模型(LLM)Agent的进化正面临一个巨大的瓶颈:对海量、高质量、人工标注数据的严重依赖。这不仅成本高昂、耗时费力,更将AI的潜力束缚在了人类知识的边界之内。 是否有方法能让AI彻底摆脱“数据投喂”,实现真正的自我进化?
2025-11-24 17:21:36
441
原创 你的LLM是个“金鱼记忆”?UIUC神作:Graph of Records,给它装上永不遗忘的“记忆硬盘”!
本工作提出 Graph of Records (GoR),一种利用历史响应构建图结构以增强长文本摘要能力的 RAG 框架,使 LLM 能在超长上下文下实现更精准、更高效的全局总结。
2025-11-24 17:20:39
481
原创 别再用二维思维看世界模型了!这篇“划时代”综述,用三维框架重塑机器人认知!
机器的 “大脑模拟器”—— 世界模型,早已成为具身智能突破的核心:自动驾驶预判路况、服务机器人完成家务,都离不开它的支撑。但当前领域术语混乱、分类缺失、标准不一,严重阻碍技术落地。
2025-11-24 17:18:45
573
原创 AI内卷下半场,比拼的不是“说学逗唱”,而是“动手能力”!不懂VLA,你将错过下一个十年!
本文总结了 视觉-语言-动作(VLA)模型 在 ICLR 2026 上的研究现状:什么“算作”VLA(以及为什么这个定义很重要)、当前 VLA 领域的研究热点(离散扩散、具身推理、新分词器等)、如何解读 VLA 研究中的基准测试结果,以及一个被模拟排行榜掩盖的“前沿差距”。
2025-11-24 17:15:42
297
原创 VLA的下一个十年?字节用Lumine给出答案:从<原神>到通用智能体的终极跳跃!
近年来,人工智能在围棋、星际争霸等封闭环境中取得了超越人类的成就,但这些系统往往局限于单一任务,缺乏在开放世界中的适应性与泛化能力。真正的“通用智能体”应能在复杂、动态的3D环境中像人类一样感知、推理并行动,完成长达数小时的使命。论文《Lumine》正是针对这一目标提出的首个开放配方,旨在构建能够在真实3D开放世界(如《原神》)中实时完成复杂任务的通用智能体。Lumine不仅在本领域表现出色,还能零样本泛化到其他游戏(如《鸣潮》《崩坏:星穹铁道》),标志着向通用智能体迈出了重要一步。
2025-11-24 17:12:13
397
原创 AI生图的“独立日”!何恺明出手,让模型彻底摆脱对Tokenizer的“依赖”!
无需使用tokenizer,无需预训练,也无需任何额外的损失函数,何恺明等提出了一种「简单但强大」的方法。他们证明,Transformer简单地在像素上使用大尺寸图像块(large-patch),就能成为一个强大的生成式模型。
2025-11-24 17:09:38
493
原创 硬核攻坚!清北联合发布流式VLA框架,万字长文,讲透在线强化学习的底层逻辑!
在具身智能的世界里,一个问题始终存在:当机器人完成了模仿,它该如何继续“自己学”?传统VLA模型依赖人类演示数据训练,它们能精准地模仿,却难以超越教师。而对于最新一代流式 VLA(如 π0、π0.5),情况更复杂——
2025-11-24 17:06:43
573
原创 还在为数据孤岛、指标打架而头疼?DataAgent“七层妖塔”一招制敌!
新的范式也不是凭空而来,是结合传统数据平台架构如Lambda架构或数据仓库/湖仓模式,面向AI的Data Agent数据应用架构范式进行构建。
2025-11-23 15:30:00
577
原创 【万字长文】Agent进化论:吃透Agent 2.0,让你彻底告别“浅层循环”!
在过去的一年里,构建一个 AI 智能体通常意味着一件事:设置一个 while 循环,接收用户提示,将其发送给 LLM,解析工具调用,执行工具,将结果发送回去,然后重复。这就是我们所说的浅层智能体或 Agent 1.0。
2025-11-23 11:45:00
929
原创 搞定这篇,你的Windows 11就是AI服务器!RAGQnASystem医疗问答系统部署全记录!
这份指南将带你在 Windows 11 上从零开始部署一套基于知识图谱和 LLM 的医疗问答系统。我们把整个过程分成了几个轻松的步骤,跟着做就不容易出错。遇到问题也不要慌,文末还有“避坑指南”等着你。
2025-11-23 11:15:00
1133
原创 “你的Agent又在‘一本正经地胡说八道’?” 别再调Prompt了,HaluMem正在精准“抓内鬼”!
近年来,大型语言模型(LLM)和Agent在个性化交互和长期学习方面展现出巨大潜力,但其核心挑战之一是如何有效管理“记忆”。想象一下,如果AI在与你多次对话后,仍然记错你的喜好、混淆事件细节,甚至虚构信息,这种“记忆幻觉”会严重破坏交互的连贯性和可信度。现有评估方法大多采用端到端的问答测试,就像只检查考试成绩而不分析错题原因,无法定位幻觉究竟发生在记忆的哪个环节——是提取时记错了?更新时没改对?还是回答时胡编乱造?
2025-11-23 07:45:00
912
原创 我宣布,数据中台已死!Palantir“本体论”开启企业AI新纪元,从数据孤岛到智能决策!
今天继续基于我前面给出的SBR工程学系统建模的可视化来对Palantir的本体论进行分析。SBR建模提示语我在前面已经给出过不再叙述,基于该提示语我们提供具体的建模需求描述如下:
2025-11-22 13:35:12
689
原创 你的代码评审还在“走形式”?Dify+vLLM搭建AI评审系统,让每一行CR都有价值
传统代码评审正面临三大挑战:人工效率低下(平均每PR耗时45分钟)、标准不统一(不同评审员检出率差异达40%)、知识沉淀困难(评审经验难以复用)。麦肯锡《人工智能驱动的下一次创新革命》报告指出,AI可将研发生产力提升300%,生成式AI能自动完成60%的重复性代码审查工作。
2025-11-22 11:41:47
483
原创 月薪3K和30K的AI工程师,差距就在这里:一个在调VLM,一个在用“感知定位”新框架!
在很多视觉应用场景中,理解图像内容与知道物体位置是不可分割的。而传统视觉检测模型擅长定位但缺乏语言理解能力,视觉语言模型擅长高层次的场景理解,但在需要精确定位的细粒度感知任务上却表现不佳。
2025-11-22 11:40:18
724
原创 拆解!Docker如何“降维打击”Ollama?本地LLM部署的权力游戏正在上演!
当 Docker 在今年 4 月首次推出 **Docker Model Runner (DMR)** 时,外界普遍将其视为 Ollama 的“容器化模仿者”——仅支持 GGUF 格式,局限于本地开发。
2025-11-22 11:39:24
689
原创 警告!LangGraph的性能瓶颈已成“公开的秘密”!agno(phidata)实测快百倍,再不换就晚了!
Agno 为您提供了最快的框架来构建代理,具有会话管理、内存、知识、人机交互和 MCP 支持。您可以将代理组合成自主的多代理团队,或构建基于步骤的代理工作流程以完全控制复杂的多步骤流程。 如果你还在觉得langgraph比较冗余的时候,不妨来感受下 agno, langgraph有的,agno都有,而且会更加丰富。
2025-11-22 11:38:19
1110
原创 大厂面试新风向!当别人还在聊ReAct,你已掌握斯坦福AgentFlow,直接甩开90%竞争者!
本工作提出 AgentFlow,一个可训练的「多模块智能体系统」(agentic system),通过在线强化学习算法 Flow-GRPO 在交互式推理流程中优化规划策略,实现更高效的多工具协同与长期推理能力,性能超越 GPT-4o。
2025-11-22 11:36:03
448
原创 【RAG“外挂”】告别繁琐配置!UltraRAG的MCP架构,让你的RAG“自适应”任何场景!
现有的 RAG 开发工具(如 LangChain, LlamaIndex)虽然降低了入门门槛,但在面对真实复杂的科研或工业场景时,往往显得力不从心:
2025-11-21 15:33:30
368
原创 LangChain v1.0 重塑一切!模块化架构终极指南,一文看懂所有依赖包的“江湖地位”!
LangChain 迎来了 **v1.0** 这个里程碑版本(2025 年10月正式发布),这是 LangChain 团队经过几年社区反馈和生产实践后,对框架的一次大刀阔斧的重构。
2025-11-21 15:32:33
950
原创 你的Agent,为何总是“答非所问”?Mobile-Agent用“双RAG”一招致命,直接干翻全场!
把 RAG(检索增强生成)做成「双级外挂」——高层任务规划用 Manager-RAG 查人类示范,底层 UI 操作用 Operator-RAG 查原子动作,从此手机 AI 不再“幻觉+手残”,跨 App 长任务成功率直接 +11%,步效 +10%。
2025-11-21 15:31:39
244
原创 LangChain的“交响乐指挥家”!7步教程,教你指挥Chain、Memory、RAG、Agent奏出华章!
在做AI应用开发的时候,大模型都有一个通病,虽然强大,但它不知道你公司的私有文档,记不住之前的对话,更不会主动上网搜索最新信息。大模型就像一个博学但"与世隔绝"的学者——知识丰富,却无法连接现实世界。
2025-11-21 15:30:42
794
原创 你的Agent,为何总是“答非所问”?传统RAG的“死穴”,被GraphRAG一招致命!
随着大语言模型(LLM)应用的深入,企业不再满足于构建仅具备基础的问答能力的Chatbot,而是渴求基于更广泛业务数据的更深度的“洞察”Agent。传统的LLM+ RAG(检索增强生成)架构虽然解决了部分幻觉问题,但在处理复杂关系和全局性问题时遭遇了瓶颈。
2025-11-21 15:29:15
736
原创 【官方认证】AI大模型的“金标准”来了!首批通过“服务能力成熟度”评估的企业,将定义行业未来!
国家标准GB/T 45288.3-2025《人工智能 大模型 第3部分:服务能力成熟度评估》,确立了大模型服务能力框架和评估指标,描述了大模型服务能力成熟度等级划分及评估方法。评估指标覆盖硬件、软件及工具链、平台综合、数据资源、模型生产定制、模型推理、平台应用、运营赋能等。本标准的实施有助于解决目前大模型服务框架模糊、服务能力评估比较困难的问题,也可帮助用户更好地对大模型进行选型,降低服务使用成本。
2025-11-21 15:25:28
1130
原创 【收藏级】AI Agent从入门到精通:LangChain/LlamaIndex核心拆解与高阶实战!
我认为 AI Agent 是一个同时满足下面两个条件的程序或者系统:1. 部分甚至核心逻辑由深度学习及其衍生技术实现(主要指大模型技术)。2. 是一个能够进行任务执行的下游应用,它的输入和输出都是直接面向终端用户的。
2025-11-21 15:24:37
788
原创 警告!你还在把ChatGPT当成AI的全部?连“大模型”和“智能体”都分不清!
AI大模型是通过对互联网级别的文本、图像、代码等数据的学习,掌握了语言的规律、世界的知识,甚至具备了一定的推理和创造能力。这种“预训练+微调”的学习范式,使得大模型能够像人一样,在掌握了通用知识的基础上,通过少量特定领域的知识进行微调,就能快速适应并胜任各种复杂的任务。例如撰写文案、生成图片、翻译文档、编写代码、分析数据,乃至进行多模态的交互。正是这种强大的通用性和适应性,让人工智能大模型成为了推动新一轮AI革命的核心引擎。
2025-11-21 15:23:30
419
原创 万字长文,深度复盘!当AI大模型泡沫退去,数据标注为何成为唯一护城河?
过去一年,所有人都在谈大模型:谁的参数更多、谁的推理更强、谁的能力更接近 AGI。但在一线做 AI 产品的人都知道——决定一个模型好不好用的,从来不是参数本身,而是背后的“数据”与“标注”。
2025-11-21 15:22:32
604
原创 严重警告:纯LLM已是死路一条!未来属于Agent,再不转型就晚了!
最近即将离职的Meta首席AI科学家、图灵奖得主杨立昆表示,全球大型科技公司投入巨额资金在 ChatGPT、Google Gemini、Meta Llama这类大型语言模型是个错误。
2025-11-20 14:10:03
857
原创 AI界的“青出于蓝”!小模型“蒸馏”出的智慧,让大模型实现“指数级”进化!
港大提出LightReasoner:让小模型教大模型“关键推理”,效率提升90%!今天要和大家聊一篇非常有意思的工作——**LightReasoner**。这篇由香港大学发表的最新论文,挑战了AI界一个习以为常的认知:**“大模型一定比小模型强,小模型只能被教导,不能当老师。”**结果他们发现:**小模型不仅能够教大模型,还能教得更有针对性、更省资源!**
2025-11-19 10:54:35
826
原创 捅破AI对话的“窗户纸”!动态提示词+多轮对话实战,让你的客服从“一问一答”到“心有灵犀”。
捅破AI对话的“窗户纸”!动态提示词+多轮对话实战,让你的客服从“一问一答”到“心有灵犀”。
2025-11-19 10:53:09
571
原创 你的企业正在“数据失明”!Graph+Multi-Agent:90%准确率的“上帝视角”如何实现?
传统方法依赖大量人工干预,耗时耗力还容易出错。虽然知识图谱(KG)被认为是解决数据互操作性的利器,但构建过程本身就是个巨大的挑战。
2025-11-19 10:52:24
904
原创 未来已来,只是分布不均!2026年,掌握这9大技能,站在AI浪潮之巅,否则就被拍死在沙滩上!
随着人工智能技术的快速迭代,我们正处于一个关键的转折点。如果说过去几年是人们习惯与AI“对话”的阶段,那么展望2026年,核心竞争力将转移到如何“驾驭”和“构建”AI系统上。未来的职场赢家,将不再仅仅是会用ChatGPT的提问者,而是能够整合模型、数据与工作流的“智能编排者”。
2025-11-19 10:51:35
996
原创 告别AI胡说八道!5分钟上手LangChain,给大模型装上“联网大脑”!
生成式AI是一种能够生成各类内容的技术,包括文本、图像、音频和合成数据。大语言模型(Large Language Model, LLM)经过海量文本数据的训练后,能将这些文本数据以一种黑盒形式压缩在模型参数中。预训练完成后,模型便掌握了大量的人类世界知识。研究者发现,当模型的规模足够大且经过指令微调对齐后,便可通过提示模板,运用零样本(zero-shot)或少样本(few-shot)的提示词来完成许多自然语言理解和自然语言生成任务。但是大模型并不具备在环境不断变化的场景中回答特定问题所需的全面知识。
2025-11-19 10:50:03
806
原创 AI Agent的“第一性原理”!一文讲清其定义、分类与发展,让你从根源上理解智能体的未来。
AI大模型(Large AI Models / Large-scale AI Models) 是指拥有亿级以上参数的深度学习模型。AI大模型利用深度学习算法和人工神经网络技术等AI技术,通过学习大量的数据提升预测能力,其性能与模型的参数规模、数据集大小和训练用的计算量之间存在幂律关系。
2025-11-18 16:03:09
935
原创 从“看图”到“预知未来”!AI Agent如何让“一张图”拥有“未卜先知”的超能力?
先看AI agent的落地现状,各行业早就借它把“效率”二字玩出花。腾讯内部90%程序员靠AI coding工具干活,50%新代码由AI生成。
2025-11-18 15:58:25
589
原创 还在Ctrl+C、Ctrl+V写用例?Dify神级工作流,让你的测试经验“无限复用”!
在软件开发中,测试是保证质量的关键环节,但测试团队常常面临一个棘手的挑战:**测试用例复用率低**。每次新功能上线、每次回归测试,测试工程师们似乎都在“重复造轮子”——查找旧的测试用例、修改、调试,耗费大量时间与精力。宝贵的测试经验散落在个人的文档、笔记甚至记忆中,无法有效沉淀为团队资产。
2025-11-18 15:56:45
419
原创 ReAct+LangGraph:测试界的“弗兰肯斯坦”计划?不,是创造更聪明的测试“生命”!
在AI智能测试和Agent开发中,**ReAct(Reasoning + Acting)范式**是核心方法。它通过**边思考边行动**的方式,实现智能体闭环动态决策。
2025-11-18 15:55:41
299
原创 AI编程“终结者”来了!字节豆包重磅亮剑,这次要和Copilot“抢饭碗”?
就在最近,字节跳动再次在 **AI 编程领域**出手——火山引擎正式发布 **豆包编程模型 Doubao-Seed-Code**,并针对企业用户上线了 **TRAE CN 企业版公测**。这次,豆包不仅仅是一个“智能助手”,而是真正让 AI **参与到项目开发的每一步**:从写代码、调试到多模块协作,AI 都能直接上手。
2025-11-18 15:54:50
2422
原创 AI Agent“入侵”污水处理厂!一场颠覆性的效率革命,正在终结“野蛮”运营时代!
结论:只要“问题不可完全穷举、要跨多系统查证、并且需要在对话中澄清/协商/决策”,就更应该用 Agent 框架,而不是纯 Workflow。
2025-11-18 15:53:00
866
原创 Dify、n8n、Coze的“天坑”与“神坑”!超详细踩盘报告,让你少走99%的弯路!
为了便于大家更系统的入门和学习,最近,我们会为大家分享关于AI智能体的系列内容:《Hello-Agents》项目正式发布,一起从零学习智能体]。 随着技术的成熟,我们看到越来越多的能力正在被“平台化”。正如网站的开发从手写 HTML/CSS/JS,演进到了可以使用 WordPress、Wix 等建站平台一样,智能体的构建也迎来了平台化的浪潮。本文将聚焦于利用图形化、模块化的低代码平台搭建智能体,来将我们的重心从“实现细节”转向“业务逻辑”,分析低代码平台之间的区别并给出选型建议。
2025-11-17 15:27:41
833
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅