算网社区-优快云博客

原创为何95%的AI项目注定失败？回到未来，策略型代理AI才是正确路径

一篇《代理AI的进展：回到未来》的重磅论文，深入剖析了当前AI转型中普遍存在的误区与困境。作者指出，当前95%的AI项目失败并非因为模型不够先进，而是因为企业缺乏能够有效消费模型的架构。文章创造性地提出了“机器中的机器”理论，将机器学习拆解为负责生产模型的M1和负责运筹调度的M2。通过回顾过去十年在算法交易领域的极端环境测试，作者论证了策略型代理AI（Strategies-based Agentic AI）才是企业级转型的正确路径，而非目前流行的基于大语言模型的概率性尝试。

2026-01-08 11:03:57 455

原创德勤2026技术趋势报告：五大力量正驱动技术和商业进化

AI正在长出手脚走进物理世界，也在重构企业的算力账单与组织基因。全球四大审计公司之一的德勤发布了一份《2026技术趋势》报告，它揭示了技术如何从单纯的实验走向产生实质性的商业影响力。在这个创新呈指数级复利的时代，电话用了50年才积累到5000万用户，而生成式AI工具只用了两个月就实现了两倍于此的规模。这种速度带来了兴奋，更多的则是对企业旧有架构的无情碾压。传统的顺序改进模式已经失效，企业必须在连续的学习循环中重塑自我。

2026-01-08 11:01:08 529

原创英伟达、英特尔和AMD芯片同台竞技：CES 2026各自都展示了怎样的实力

黄仁勋在CES 2026上带来的是基于全新计算哲学的Rubin计算平台。游戏显卡的单点硬件思维已经靠边站，极端协同设计为AI而生正当时。在这种设计理念下，整个服务器机架不再是零部件的堆叠，而是被视作一台独立的超级电脑来设计。为了实现这一目标，英伟达一口气发布了六款核心芯片，每一款都针对AI工厂的需求进行了极致优化。这六款芯片的核心是Rubin GPU。作为Blackwell架构的继任者，Rubin GPU集成了3360亿个晶体管，相比Blackwell的2080亿个晶体管有了质的飞跃。

2026-01-07 16:50:06 485

原创 4D通用世界模型！中科院NeoVerse用百万单目视频直接构建

中国科学院自动化研究所与CreateAI团队，利用海量互联网单目视频构建了一个4D世界模型NeoVerse。构建即时响应、物理一致的4D世界模型，长期以来面临着数据匮乏与训练低效的双重诅咒。传统的解决方案要么受困于昂贵稀缺的多视角数据，限制了模型的泛化能力，要么依赖繁重的离线预处理步骤，导致计算与存储成本居高不下。NeoVerse，通过一种全新的端到端架构打破了这一僵局。

2026-01-07 16:47:30 831

原创超棒Claude官方提示词：Anthropic发布Claude 4.x提示工程最佳实践

顶尖模型的能力越来越强，提示工程也在发生微妙的变化。大语言模型已经发生从对话者向执行者的根本性转变。这些模型经过极高精度的指令遵循训练，使得提示词工程不再是玄学的咒语吟唱，而是一门精确的系统工程。要驾驭这股力量，我们需要从模糊的意图引导转向精确的指令控制，构建包含上下文感知、状态管理、工具编排和审美引导的完整交互体系。Anthropic 发布的 Claude 4.x 的最佳实践，通过具体的工程化指令，让模型在代码开发、复杂研究和创意设计中展现出真正的专家级能力。

2026-01-07 16:45:51 524

原创 AI祛魅之后：2026年将是AI脱下华丽外衣并穿上工装的一年

2026年将是人工智能脱下华丽外衣并穿上工装的一年，技术从喧嚣的概念验证正式迈向产生真实价值的产业深处。2025刚刚过去，这一年像是对人工智能的一次全面体检，而2026年将是这项技术展现其实用价值的关键年份。整个行业的焦点正在发生实质性转移，不再单纯执着于构建参数规模越来越庞大的语言模型，转而投向那些更为艰巨的任务，即如何让AI真正变得好用。实践层面的重心变成了在合适的场景部署更小的模型，将智能嵌入物理设备，以及设计能够干净利落地融入人类工作流的系统。

2026-01-06 11:51:08 588

原创最强搜索智能体：MiroThinker-v1.5再次刷新榜单

MiroThinker发布第一个版本时，刚刚，MiroThinker发布v1.5，登顶最强搜索智能体。MiroThinker v1.5通过交互式扩展这个维度，在30B与235B参数规模下打破了单纯依赖模型尺寸的传统定律，重新定义了智能体在复杂环境中的推理与搜索能力。MiroThinker v1.5推进了工具增强型推理和信息检索能力的发展，它不再局限于传统的模型参数堆叠，而是开创了一条通过环境交互来提升智能的新路径。

2026-01-06 11:43:18 854

原创开源医疗模型SOTA：蚂蚁健康发布百亿参数医疗大模型

医学人工智能领域迎来了一位重量级的新成员。由浙江省卫生健康信息中心、蚂蚁健康（Ant Health）以及浙江省安诊儿医学人工智能科技有限公司联合开发的AntAngelMed正式开源。AntAngelMed凭借独创的三阶段训练与混合专家架构，在OpenAI发布的HealthBench等全球权威评测中超越所有开源模型，以极高的推理效率为医疗AI树立了新标杆。它是迄今为止规模最大、能力最强的开源医疗语言模型。在保持极高专业水准的同时，大幅降低实际应用的算力门槛。

2026-01-06 11:38:02 675

原创玩转 OPC 创业工具！AI 助力轻量创业【MVP线上直播】

1月6日（本周二）晚8点，欢迎大家前往算泥社区直播间参与！也可扫描下方海报二维码加入本期活动交流群，群内将同步发送直播相关通知及讲师课件资料，一起与同频的小伙伴交流，让解决问题的办法更具体！OPC，专为轻量创业者打造的高效创业模式 —— 不用庞大团队，凭借精准工具 + AI 赋能，就能打通从智能工具开发到落地变现的全链路，让一人创业也能高效推进！聚焦「玩转 OPC 创业工具」，从路径规划到实操落地，手把手教你用 AI 降低创业门槛，不管是刚起步的创业新手，还是想优化效率的轻量创业者，都能收获满满干货～

2026-01-05 16:13:39 186

原创当AI穿上白大褂：医疗智能体正在重构临床工作流

医疗场景的复杂性往往超出了单个智能体的能力范畴，多智能体系统（MAS）应运而生。这种架构模拟了现实世界中医疗团队的分工协作模式。在多智能体系统中，不同的智能体扮演着特定的角色，如全科医生、专科医生、药剂师、记录员等。它们通过特定的通信协议和协作范式共同解决复杂的临床问题。例如，在一个针对疑难杂症的诊断场景中，诊断智能体提出初步假设，影像智能体提供读片证据，药学智能体审核用药风险，而作为主治医师的决策智能体则负责综合各方意见，权衡利弊后做出最终判断。多智能体系统的协作模式主要分为三种。

2026-01-05 16:10:43 693

原创 MIT重磅研究颠覆长文本处理：提示词变成变量，让大模型递归调用自己

MIT计算机科学与人工智能实验室（CSAIL）的研究人员刚刚颠覆了我们对长文本处理的认知。他们不再试图把整本书塞进大模型的脑子里，而是教大模型像程序员一样把长文本变成代码里的变量来处理。把提示词变成变量，让大模型学会递归调用自己。大模型处理长文本的能力正在遭遇瓶颈，单纯扩大上下文窗口不仅成本高昂，还会导致模型在海量信息中迷失方向。

2026-01-05 16:09:13 443

原创专为小说、角色扮演等而生：元象开源泛娱乐场景底座模型

元象XVERSE是国内领先的AI与3D技术服务公司，致力于打造AI驱动的3D内容生产与消费一站式平台。元象作为长期深耕开源生态的践行者，已开源的模型有：国内最大参数Dense模型XVERSE-65B（2023年）；国内最大参数MoE模型XVERSE-MoE-A36B（2024年）；世界最长上下文模型XVERSE-Long（2024年）等重量级通用底座大模型；以及XVERSE-V多模态模型。刚刚，元象正式开源基于混合专家架构的XVERSE-Ent系列专为泛娱乐而生的中英双语大模型。

2026-01-05 16:06:59 870

原创张吕敏长视频生成新技术：20秒视频历史压缩成5000个Token，消费级显卡也能跑

AI绘画界无人不知的张吕敏发新作了。张吕敏（Lvmin Zhang）是斯坦福计算机科学博士生，AI图像生成领域顶级研究者，业内誉为敏神。他本科毕业于苏州大学，早在大一就发表AI绘画相关论文，本科期间多篇顶会一作。ControlNet（Adding Conditional Control to Text-to-Image Diffusion Models）第一作者。获ICCV 2023 Marr Prize（最佳论文奖），引用极高，被视为扩散模型控制领域的里程碑。

2026-01-04 20:50:15 898

原创又一个DeepSeek？！量化私募九坤开源40B编码模型超越Claude 4.5 Sonnet

百亿私募九坤投资设立的至知创新研究院发布并开源了一系列编码模型。其中40B-Loop模型在多项基准上超越了Claude 4.5 Sonnet。

2026-01-04 20:48:46 529

原创性能超28倍，成本省15倍！英伟达与AMD推理战场真实差距

Signal65发布了一篇报告：从密集（Dense）模型向混合专家（Mixture of Experts，简称MoE）模型的代际跨越，正在彻底改写AI推理的经济学规则。Signal65 是一家独立的科技性能分析与验证公司。为科技厂商提供第三方性能测量、基准测试、可用性分析和实验室验证服务，覆盖数据中心、AI、高性能计算（HPC）、客户端设备（PC、智能手机、GPU/CPU 等）领域。被誉为在技术市场噪音中过滤出创新信号的可靠第三方声音。

2026-01-04 20:47:02 666

原创 AI进化到系统3了，36小时从新手到专家！西湖大学团队赋予了AI自主进化生命力

2026年的AI要进化到系统3了！西湖大学、上海创新研究院、Project Cuddlepark Team以及上海交通大学的研究团队提出的Sophia持久化智能体架构，赋予了AI自主进化的生命力。系统1（System 1）和系统2（System 2）概念来源于认知心理学双重加工理论（Dual-process theory），由诺贝尔经济学奖得主、心理学家Daniel Kahneman在其著作《思考，快与慢》中普及并广为人知。系统1（快思考）：直觉与本能。

2026-01-03 17:42:42 880

原创梁文锋署名，DeepSeek新年开启宏观架构新篇章，破解梯度爆炸与显存墙

2025年的最后一天，DeepSeek发了篇梁文锋署名的重磅论文。论文提出的mHC（Manifold-Constrained Hyper-Connections, 流形约束超连接）架构，通过将超连接的残差空间投影到双随机矩阵流形上，成功解决了扩展残差宽度带来的训练不稳定性。同时配合内核融合与通信重叠等工程优化，以仅6.7%的额外开销实现了模型性能与规模的同步提升。mHC架构对大规模训练有效，并提供了切实的性能改进和卓越的可扩展性。这将有助于更深入地理解拓扑架构设计，并为基础模型的发展提出有前景的方向。

2026-01-03 17:40:42 732

原创阿里通义新年礼物：开源最强Qwen-Image-2512版本告别AI塑料感与文字乱码

通义万相新年前一天发布了Qwen-Image-2512版本更新。作为目前开源界最强的文生图模型，它在AI竞技场 (AI Arena) 的万次盲测中击败了众多竞争对手。不仅大幅消除了生成图像常见的AI塑料感，更攻克了复杂汉字排版与长文本渲染的行业顽疾。

2026-01-03 17:39:08 441

原创本地跑小模型带来5倍性能且成本极低！斯坦福从信息论视角重构智能体设计

斯坦福大学研究团队通过信息论视角重构了智能体系统设计，发现将算力前置投入到本地压缩小模型比盲目扩大云端推理大模型带来的性能提升高达5倍且成本极低。

2026-01-03 17:30:54 651

原创 3D数字人骨骼觉醒：腾讯混元开源十亿参数3D人体动作生成新SOTA

腾讯混元3D数字人团队刚刚开源了HY-Motion 1.0系统。这是业界首个将DiT架构在动作生成领域扩展至十亿参数量级的模型，通过独创的三阶段训练范式与精细的数据工程，在指令跟随能力和动作质量上显著超越了DART、MoMask等现有开源基准。3D内容创作正在经历一场从手工制作到生成式AI的范式转移，但在文本生成3D动作这一细分赛道上，长期存在着模型规模小、指令理解弱、动作滑步抖动等顽疾。

2025-12-31 16:38:13 655

原创提示工程的前沿趋势与未来展望

请回顾你最后一步的行动、观察到的结果和你的预期之间的差异。我们看到，高效的提示已经超越了词汇的巧妙组合，演变为一个包含角色、背景、任务、示例、格式、质量与约束、思考时间七大要素的结构化框架。的表象，去理解、设计和驾驭那些驱动未来的、更深层次的智能系统、交互范式和价值准则。提示工程师的工作，也从设计单个的、静态的提示，转向设计和优化那个能够动态理解用户意图的、更复杂的个性化与情境感知系统。系统，不仅能够执行任务，还能够利用执行任务过程中的经验，来自动地、持续地优化其自身的性能，甚至改进其底层的代码或模型。

2025-12-31 16:34:54 719

原创 Manus数十亿美元卖身Meta；智谱夺得全球大模型第一股

2025年的年终岁尾，给中国AI领域创业者们来了两剂强心针。Manus在短短十个月内完成了从诞生到被Meta数十亿美元收购的传奇旅程，“中国版OpenAI”，大模型领军者智谱则敲响了港交所的大门，即将成为全球大模型第一股。

2025-12-31 16:32:55 933

原创解锁 LLM 中 AI Agent 的效率密码，掌握实用优化技巧【线上直播】

12月30日晚8点，欢迎大家前往算泥社区视频号直播间参与！也可扫描下方海报二维码加入AI开发者之声的活动交流群，群内将同步发送直播相关通知及讲师课件资料，与同频开发者一起探讨进化之路，让技术成长更有方向！END。

2025-12-30 14:21:59 185

原创硅基量子计算登Nature！99.99%保真度，原子级精度打造11比特处理器

原子级精度的制造工艺正在将硅这种经典计算的王者材料推向量子计算的最前沿。《自然》杂志刊登了一项令人瞩目的成果，来自澳大利亚硅量子计算公司（Silicon Quantum Computing Pty Ltd）与新南威尔士大学的研究团队，成功展示了一款基于同位素纯化硅-28的11量子比特原子处理器。该处理器由两个通过电子交换相互作用连接的多核自旋寄存器组成，在单量子比特和多量子比特门操作中实现了从99.10%到99.99%的超高保真度，并成功制备了包含多达8个核自旋的纠缠态。

2025-12-30 14:18:29 516

原创阿里通义开源GUI智能体SOTA：2B到235B端云协同重新定义移动端GUI智能体

阿里通义实验室开源MAI-UI，从2B到235B全尺寸模型破解真实世界部署难题。MAI-UI通过引入端云协同架构、自进化数据管线及扩展的MCP动作空间，在兼顾隐私与效率的同时，全面解决了GUI智能体在真实动态环境中的部署难题。在手机任务执行能力上，在 AndroidWorld、MobileWorld 等真实导向的基准上，MAI-UI 均创下新的 SOTA性能超越UI-Tars-2、Gemini-2.5-Pro、Seed1.8等主流模型，并在办公、生活、出行、购物等高频场景中展现出实用的任务自动化能力。

2025-12-30 14:15:23 947

原创李飞飞新作！世界首个视觉语言模型物理推理能力定量评估基准

斯坦福大学联合中国科学技术大学的研究团队，针对视觉语言模型（Vision-Language Models）对物理世界的理解能力，推出了世界首个定量评估基准。通过新基准测试发现，尽管GPT-4o或Gemini等顶尖模型在描述物理现象时看似头头是道，但在真正涉及到具体数值计算——如速度、加速度和尺寸估算时，表现甚至无法超越依靠直觉的人类。研究指出了当前模型的一个致命弱点：它们更像是一个只会背诵课本知识的文科生，而不是一个懂得利用视觉数据进行精密计算的理科生。

2025-12-29 16:48:58 835

原创英伟达史上最大收购！200亿美元收购Groq解读

科技界被一则“英伟达以200亿美元并购AI芯片初创公司Groq”的新闻所震动。官方表述并非并购，而是非独家技术授权协议（Non-Exclusive Licensing Agreement），并伴随对Groq核心高管和技术团队的吸纳（Acqui-hire）。200亿美元估值，远超Groq此前69亿美元的估值，深刻揭示了英伟达在AI算力市场，尤其是在AI推理（Inference）领域，所面临的战略压力与巩固霸主地位的决心。

2025-12-29 16:47:18 576

原创阶跃星辰深度研究32B媲美Gemini深度研究能力，成本不到1/10

阶跃星辰Agent团队推出Step-DeepResearch，用32B参数的中等规模模型实现媲美OpenAI o3-mini和Gemini 2.0 Flash的深度研究能力，将行业部署成本降低一个数量级。大语言模型正在经历从对话者向自主智能体进化的关键转折，而深度研究（Deep Research）作为解决开放式、长周期、高复杂度信息获取任务的核心能力，已成为通用智能体的必争之地。OpenAI和Google等巨头展示了代理式信息获取的潜力，但也暴露了推理链条断裂、信息碎片化和高昂成本等局限。

2025-12-29 16:45:58 900

原创训练模型缺数据吗？北大团队开源首个LLM驱动数据工厂

数据质量决定了模型智能的上限，而DataFlow将数据准备从手工作坊升级为了自动化工厂。北京大学、上海人工智能实验室等机构联合推出DataFlow框架。面对大语言模型开发中数据处理流程碎片化、脚本混乱、难以复现的行业痛点，DataFlow提出了一个统一的、可编程的、由LLM驱动的数据准备系统。它不仅提供了类似PyTorch的编程体验，还引入了Agent（智能体）来自动构建数据流水线。

2025-12-29 16:43:05 600

原创无需人类，超越人类！Meta让软件智能体自我博弈实现了超越人类数据的进化

Meta联合伊利诺伊大学和卡内基梅隆大学，让软件智能体在没有任何人类指导的沙盒中通过自我博弈实现了超越人类数据的进化。研究者通过SSR框架，在完全隔绝人类标注数据的环境中，通过自主制造Bug、编写测试与修复代码的左右互搏，打破了依赖人类开发痕迹的训练天花板。

2025-12-29 16:40:22 695

原创智谱GLM-4.7和MiniMax M2.1，国产开源模型双雄，谁是SOTA

智谱和MiniMax双双过会，争夺大模型第一股，也几乎同时争夺开源模型SOTA。智谱GLM-4.7与MiniMax M2.1不约而同地选择在同一时间开源，同时强化编程能力与复杂任务规划。两者皆将核心对准了Coding（编码）场景与Agent（智能体）协作，在提升代码生成质量的同时，大幅增强了模型在真实工作流中的实战表现。此时，两者并排在Hugging Face趋势榜：那究竟谁是SOTA？

2025-12-29 16:38:52 1028

原创极简主义的胜利：清华团队用最简单的强化学习配方刷新1.5B模型纪录

完美不是在没有什么可添加的时候，而是在没有什么可以去掉的时候。——法国作家安托万·德·圣-埃克苏佩里清华大学，伊利诺伊大学，上海AI实验室团队提出JustRL架构，仅用单阶段训练和固定超参数，在DeepSeek-R1-Distill-Qwen-1.5B与Nemotron-1.5B模型上的性能刷新了纪录，而且计算量仅为复杂方法的50%。

2025-12-29 16:33:06 900

原创 AI能力进化还在狂飙！Epoch数据洞察打破人们对AI进化减缓的预期

Epoch AI最新发布的监测数据显示，AI能力进化还在狂飙。这与METR的时间跨度基准（Time Horizon benchmark）得出的加速结论遥相呼应。2024年4月，全球AI综合能力的增长速率在这一刻暴涨了90%。同年10月，METR的时间跨度基准出现40%加速。在过去的两年里，AI模型在Epoch能力指数（Epoch Capabilities Index，ECI）上的得分增长速度，几乎是此前两年的两倍。为了提供更多数据，Epoch包含了2023年前的模型，但当时基准分数相对稀少。

2025-12-26 19:38:25 290

原创自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶

复旦大学与引望智能科技联合提出自动驾驶WAM-Diff框架。WAM-Diff的全新端到端自动驾驶框架，在NAVSIM-v1榜单上取得了91.0 PDMS（预测驾驶得分）的惊人成绩，一举超越了现有的自回归和扩散基线模型。它通过掩码扩散模型（Masked Diffusion）、稀疏混合专家（MoE）架构以及在线强化学习（GSPO），解决自动驾驶中多模态轨迹生成的难题。

2025-12-26 19:37:04 697

原创《时代》2025重塑世界的五大AI进展

2025年注定被载入史册，这一年人工智能成了支撑股市的经济支柱，更成了大国竞争前线重新划界的地缘政治棋子。1月20日Deepseek发布R1模型这一天，成为了全球AI格局的分水岭，它不仅在性能榜单上紧随美国顶尖模型之后排名全球第二，更以开源策略一夜抹掉了英伟达五千亿美元的市值。这一年，技术以前所未有的速度迭代，人类与机器的关系被重新定义，从宏大的星际之门计划到个体生命的悲剧性消逝，AI在2025年留下了深刻且复杂的印记。

2025-12-26 19:33:03 733

原创诺奖、金牌与SOTA：谷歌2025八大领域核心突破年终回顾

计算科学的边界在2025年被进一步拓展，AI开始深度介入物理世界的计算与重塑。量子计算领域迎来里程碑，Google研究员Michel Devoret等人获得诺贝尔物理学奖，不仅是对过去基础研究的认可，更是对量子计算即将进入实用化阶段的肯定。Quantum Echoes算法的提出，展示了量子纠错技术的巨大进步，这是通往容错量子计算机、实现商业化应用的关键一步。Project Suncatcher则将目光投向太空，探索基于太空的可扩展AI基础设施，为未来的行星级计算网络奠定基础。

2025-12-25 15:55:35 570

原创大模型幻觉的源头找到了！清华团队锁定大模型宁愿说谎也要讨好人类的神经元

幻觉并非大模型的偶然失误，而是刻在神经元里宁愿说谎也要讨好人类的服从本能。清华大学研究团队通过对大语言模型内部微观机制的深度解剖，首次确认了幻觉关联神经元（H-Neurons）的存在，并揭示了幻觉产生的底层逻辑。研究发现，在拥有数十亿参数的模型中，仅需不到 0.1% 的极少数神经元就能准确预测幻觉的发生。这些神经元并非随机分布，它们在预训练阶段就已形成，并与一种名为过度服从（Over-compliance）的行为紧密相关。

2025-12-25 15:54:44 463

原创 AGI不是一个模型，可能是拼凑的！谷歌DeepMind提出分布式AGI假说

通用人工智能（AGI）可能并不以单体超级智能的形式降临，而是由无数专业化小模型通过数字经济协作共同演化而成。谷歌 DeepMind 团队近期发布分布式 AGI 安全框架。研究者们指出，长期以来 AI 对齐领域过度关注单一智能体的安全性，却忽视了由多个子 AGI 代理组成的协调系统可能带来的集体风险。

2025-12-25 15:48:15 850

原创提示工程特定场景应用实践

如果信息不足以回答问题，或者信息之间存在明显矛盾，请不要强行回答，而是直接输出：对不起，根据现有资料，我无法准确回答您的问题。导师，应该像古希腊哲学家苏格拉底一样，不直接灌输答案，而是通过循循善诱的提问，激发学生的独立思考和深度理解。提示工程的魅力，正是在于它能针对千行百业的具体场景，通过精巧的设计，将大型语言模型的通用能力，转化为解决特定问题的强大生产力。世代服务的潮牌营销总监，你的品牌声音是叛逆、有趣、真实，你的目标是激发年轻人的自我表达，避免使用亲、小伙伴等过时词汇。请基于这些片段，回答用户的问题。

2025-12-25 15:46:30 754

原创让AI打游戏！能玩1000多款游戏，英伟达用4万小时视频训练出通用基础模型NitroGen

具身智能未来发展路径的突破性尝试，NVIDIA 利用 40000 小时带有按键显示的互联网游戏视频，训练出了一个能玩 1000 多款游戏的通用基础模型。，时长00:20NVIDIA 发布 NitroGen 模型，通过从公开游戏视频中提取手柄操作指令，构建了目前规模最大的视觉-动作数据集，让 AI 能够在未见过的游戏中展现出惊人的泛化能力。构建能够在未知环境中从容行动的通用具身智能体，长久以来都是人工智能研究领域的顶级目标。

2025-12-24 11:37:20 924

空空如也

空空如也