算网社区-优快云博客

原创从数据到数据的视觉生成！上海交大布朗桥模型无需将数据转噪声，实现4倍效率提升

新加坡国立大学，香港理工大学，上海交通大学的研究团队推出了ViBT。ViBT通过建立源数据与目标数据间的直接随机路径，配合方差稳定的速度匹配与校正采样，解决了传统扩散模型效率低与训练不稳定的难题。模型在图像、视频风格化，图像编辑，视频插帧等任务上表现非常出色。生成式AI的发展历程是一部不断寻找更优路径的历史。从对抗生成网络到变分自编码器，再到如今统治领域的扩散模型，我们见证了生成质量的飞跃。主流扩散模型的核心逻辑是噪声转视觉。

2025-12-05 14:30:52 643

原创 AI如何改变工作？！Anthropic内部揭秘20万代码交互记录背后的职业变迁

传统的软件工业建立在精细的分工之上，后端工程师专注于数据库与服务器逻辑，前端工程师打磨用户界面与交互体验，安全专家负责审计漏洞。这种分工既是工业化的必然结果，也是人类认知带宽限制的体现。在Anthropic内部，这道横亘在不同技术栈之间的墙壁正在被Claude拆除。后端工程师不再苦恼于CSS样式的调整，他们直接向AI描述需求，迅速构建出功能完备的前端界面。安全研究员利用AI快速解析陌生的代码库，瞬间理解复杂的逻辑结构。

2025-12-05 14:26:51 298

原创 AI自我进化机制：谷歌DeepMind团队新框架让AI告别每次从头开始，在任务流中越用越聪明

AI打破了永远是初学者的魔咒，开始自我进化。谷歌DeepMind团队联合伊利诺伊大学提出了Evo-Memory框架。通过引入测试时自我进化机制，彻底改变了大型语言模型只能被动检索历史、无法像人类一样从经验中提取智慧的现状，让智能体在持续的任务流中实现了真正的终身学习。

2025-12-05 14:22:36 534

原创以 AI 架构思维，破解 AI 落地 “卡脖子” 难题！【线上直播】

架构思维的破局之道：分享如何用系统化架构设计，优化模型选型、资源分配、流程搭建，让 AI 落地更高效、更稳健。正在负责 AI 项目开发与部署，被成本高、效率低、场景适配难等问题卡住的算法工程师、架构师、技术负责人；推动企业 AI 化转型，需要协调技术与业务、拆解复杂需求的产品经理、项目经理、AI 转型负责人；AI落地的真实困境拆解：直击部署成本高、场景适配难、数据链路复杂等核心痛点，剖析问题根源；深耕 AI 领域、想提升实战落地能力，或计划转型 AI 架构方向的学生、技术爱好者。

2025-12-05 14:16:39 39

原创源神阿里！图像生成Ovis-Image再开源，7B小参数媲美GPT-4o和20B开源模型

源神阿里太卷了！图像生成领域，卷掉了曾经的开源之王 Flux，现在连自己也难幸免。8 月 Qwen 团队发布的 qwen-image 图像生成与编辑模型，至今仍然称霸图像生成开源界。前几天通义实验室 Z-Image 团队发布的 z-image，直接将 qwen-image 拉下神坛。稳稳霸榜 Hugging Face。人们以为阿里在玩左右互搏，没想到是 3 只手在互博！这不，刚刚 Ovis 团队发布了 Ovis-Image。

2025-12-04 12:50:59 456

原创视觉思维链全新架构，加州大学让多模态大模型有了灵性，整体性能提升5.3%

加州大学伯克利分校团队，让多模态大模型不再被迫将视觉信息翻译成贫瘠的文字。人类在观察世界时，绝不会把眼前景象先在脑子里翻译成一长串文字描述，再通过文字逻辑去判断距离和方位。我们会直接在大脑中通过视觉信号建立空间感。这种直觉式的视觉思维，正是机器长久以来缺失的拼图。加州大学伯克利分校、加州大学洛杉矶分校（UCLA）与松下AI研究中心的团队联合提出了一种全新的架构——视觉思维链（Chain-of-Visual-Thought，简称CoVT）。

2025-12-04 12:47:54 744

原创 Transformers来到了v5时代：从工具包到真理之源，AI时代的操作系统内核的极简进化论

面对 400 多种模型架构带来的维护压力，v5 团队选择了一条反直觉的路径：做减法。代码即产品不仅是一句口号，更是对抗软件熵增的唯一手段。为了在保持灵活性的同时降低维护负担，v5 激进地推行了模块化设计。这一策略并非简单的文件拆分，而是对底层逻辑的抽象与重组。过去，每个模型的实现往往包含大量重复的注意力机制代码。

2025-12-04 12:42:03 561

原创告别VAE压缩损耗，南京大学用DiP让扩散模型回归像素空间，实现10倍加速与SOTA级画质

南京大学，腾讯优图实验室，新加坡国立大学发布了DiP框架（模型、代码也即将开源）。DiP框架在不依赖VAE的情况下，以仅增加0.3%参数量的代价，将推理速度提升10倍并在ImageNet上取得1.79的FID分数，彻底解决了扩散模型在像素空间难以兼顾质量与效率的顽疾。扩散模型（Diffusion Models）重塑了图像合成、视频生成和3D创作的格局，全面超越了生成对抗网络（GANs），但其背后的算力消耗惊人。如何在不牺牲质量的前提下降低计算门槛，是所有研究者面临的头号难题。

2025-12-04 12:38:05 601

原创多人会话视频生成新突破：香港科技大学，浙江大学用单人数据实现多人交互视频生成

香港科技大学，Video Rebirth，浙江大学，北京交通大学开源了AnyTalker，提出音频驱动多人交互生成新范式。AnyTalker仅需极少量的多人对话数据即可生成具有自然眼神交流和即时反馈的多人对话视频，打破了以往模型对大规模昂贵数据集的依赖。，时长00:12视频生成技术正在经历一场从单体到群体的演变。在数字媒体、播客制作以及直播带货等领域，内容的核心往往不是单一角色的独白，而是多人之间丰富且微妙的互动。

2025-12-04 12:25:19 656

原创 DeepSeek-V3.2正式版发布，将开源模型的能力推向极致

DeepSeekV3.2正式版刚刚开源了。同时发布两个正式版模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。DeepSeek-V3.2标准版，旨在成为日常任务与通用智能体（Agent）场景的首选。它在架构设计上极度克制，力求在推理能力与输出长度之间找到最优解。在公开的推理类基准测试中，DeepSeek-V3.2展现出了与GPT-5分庭抗礼的实力，仅以微弱差距次于Gemini-3.0-Pro。对于用户而言，更直观的感受在于其显著降低的计算开销与等待时间。

2025-12-02 11:22:56 961

原创光芯片登上Nature！上海交大，中科院等告别电子算力墙，用光实现全并行张量处理

上海交通大学、中科院、芬兰埃斯波阿尔托大学等提出了并行光学矩阵-矩阵乘法的全新光学计算架构POMMM，突破GPU能效瓶颈，瞬间完成复杂神经网络推理。利用光的玻色子特性与空间频率对偶性，POMMM范式在单次光传播中实现了全并行张量处理，为高带宽、低能耗的下一代计算架构奠定了物理基础。

2025-12-02 11:20:37 506

原创 MV导演诞生！上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室（AI Lab, GiantNetwork）提出的YingVideo-MV框架，通过级联架构将音乐语义分析、导演级镜头规划与时间感知的视频生成模型结合，解决了传统音频驱动视频生成中运镜单一和长序列画面崩坏的难题，实现了具备精准口型、自然肢体与丰富运镜的高质量音乐视频生成。S 全屏播放 full_screen_mv数字人技术在音乐视频、Vlog和广告领域的应用价值日益凸显，但要让虚拟形象不仅是对口型，而是真正呈现出具有感染力的音乐表演，一直是业界的难点。

2025-12-02 10:32:59 724

原创 7篇顶会NeurIPS 2025最佳论文都说了什么？

NeurIPS 2025 的七篇获奖论文通过严谨的理论与大规模实验，揭示了大模型正在陷入思维同质化的蜂巢效应，证明了强化学习并未真正扩展模型的推理边界，同时在注意力机制、神经扩展定律及生成模型动力学上取得了物理学层面的突破。今年的 NeurIPS 呈现出一种冷静而深邃的特质，它不再为参数量的军备竞赛欢呼，转而将手术刀对准了繁荣背后的隐忧与地基。研究者们发现，我们引以为傲的 AI 多样性可能正在消失，所谓的推理能力提升很大程度上是概率游戏的幻觉。

2025-12-01 08:32:33 744

原创谷歌Ironwood架构TPU v7：用AI造AI，撼动英伟达芯片帝国

谷歌Gemini 3击败了OpenAI，Nano Banana Pro震惊了世界。要问我模型为什么这么强？且看Ironwood架构TPU v7你需要知道的3件事。谷歌发布的第七代TPU Ironwood，是DeepMind团队用AlphaChip设计的芯片，以9.6 Tb/s的光互联带宽和1.77 PB的共享显存池，彻底重构了大模型推理的硬件基准。11月25日，谷歌云揭开了其第七代定制芯片——Ironwood的面纱。

2025-12-01 08:30:32 622

原创即时编程与设计，软件按需生成：Google生成式UI将重塑人机交互体验

Google Research 团队证明，现代大语言模型在配备适当工具与指令后，已能从单纯的内容生成者进化为全栈开发团队，实时将用户需求转化为包含富交互、动态数据与视觉设计的完整应用程序，彻底打破了长久以来统治人机对话的 Markdown 文字墙模式。生成式 AI 正在经历一场静悄悄的形态革命。Google Research 团队发布了生成式 UI（Generative UI）的研究，展示了一种全新的交互可能性。这不仅仅是格式的优化，而是交互逻辑的根本性重构。以往我们向 AI 索取信息，它返回文本。

2025-11-30 13:21:30 609

原创阿里NeurIPS 2025顶会论文：给Transformer装上阀门，解决LLM的大规模激活难题，重塑大模型训练稳定性

阿里巴巴Qwen团队联合爱丁堡大学、斯坦福大学、麻省理工学院及清华大学，做了一项十分硬核的穷举式研究。他们针对标准Softmax注意力层，设计了30多种门控变体，在15B参数量的混合专家模型（MoE）和1.7B参数量的稠密模型上，进行了长达3.5万亿Token的训练实验。这项研究入选NeurIPS 2025。给Softmax注意力机制加上一个简单的Sigmoid门控，就能解决大模型训练不稳、消除注意力汇聚现象，并显著提升长文本外推能力。

2025-11-30 13:19:46 782

原创麦肯锡重磅报告：关于未来的生存指南，当57%的工作被自动化，我们如何与AI结成利益共同体

现有技术理论上已能自动化美国当前57%的工作时长，但这并非失业的预警，而是通向2.9万亿美元经济增量的新入口。11月25日，麦肯锡全球研究院（MGI）发布了一份足以重塑我们对未来工作认知的报告。这份报告剥离了关于AI会夺走工作的恐慌情绪，将目光聚焦于一个更具建设性的现实：生产力的前沿正在被拓展，工作的本质正在从单纯的人力劳动，转变为人、智能体（Agents）与机器人（Robots）的深度协作。我们正处在一个十字路口。一边是技术的指数级进化，另一边是人类技能的缓慢迭代。

2025-11-30 13:17:52 929

原创奥数金牌模型DeepSeek-Math-V2发布！超越答案的自我验证与数学推理新范式诞生

DeepSeek刚刚发布的DeepSeek-Math-V2，在IMO 2025（2025国际奥数）和CMO 2024（2024中国奥数）上获得了金牌级分数，在Putnam 2024（2024普特南数学竞赛，难度最高的大学生数学竞赛）上获得了近乎完美的118分（满分120）。这是AI从单纯生成答案向过程自我验证进化的关键转折。DeepSeek-Math-V2代表了一种根本性的方法论转移：从依赖结果反馈的强化学习，走向依赖过程验证的自我反思。

2025-11-30 13:15:33 667

原创 Flux 2开源即结束：阿里通义Z-Image用6B参数，实现超高性能和生图速度，荣登开源榜首

开源还得看国产！图像生成社区期待已久的 Flux 2，刚刚开源一天，即被阿里通义实验室开源的 Z-Image 精准狙击。Flux 2 以其 32B 参数，超高显存要求以及超慢的生成速度，已经将社区的大部分开发者拒之门外。对国内开发者来说，中文支持表现不佳，也是硬伤。而这一切，都被 6B 参数 S3-DiT 架构模型的 Z-Image，以 8 步采样实现亚秒级出图并完美适配 16GB 消费级显卡完美解决。Flux 2 生成一张图像的时间，Z-Image 能生成 20 张。

2025-11-28 08:25:55 515

原创香港大学芯片登Nature：能源效率提高15.1倍，面积减少12.9倍，实现能效与精度双突破

香港大学研究团队开发出一种基于忆阻器的自适应模数转换器，在将能效提升15.1倍的同时，实现了超分辨率精度，解决了存内计算系统中最关键的信号转换瓶颈。深度学习模型的规模正在以指数级速度增长，数以亿计的参数运算量让传统的冯·诺依曼架构不堪重负。计算单元与存储单元分离的物理结构，导致数据在两者之间频繁搬运，由此产生的存储墙问题不仅限制了速度，更消耗了大量能源。存内计算（Compute-in-Memory, CIM）技术应运而生，它通过在存储阵列内部直接完成计算，极大地减少了数据移动。

2025-11-28 08:22:25 277

原创提升66.7%的性能！哈佛揭开了AI复杂任务中表现惊人简单逻辑上翻车的真相

大模型在复杂任务中表现惊人，却在简单逻辑变体上频频翻车。这种高分低能的悖论，是如何产生的？伊利诺斯大学、华盛顿大学、普林斯顿大学、哈佛大学等组成的一个跨学科研究团队，发布了一项重磅研究。研究人员通过引入认知科学框架并重构推理结构，让AI学会像人一样思考，带来高达66.7%的性能跃升。大语言模型正经历前所未有的能力大爆发。它们能写出精妙的代码，通过高难度的专业考试，甚至在某些领域展现出超越人类专家的知识储备。

2025-11-27 13:27:51 265

原创腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

HunyuanOCR 将原本割裂的 OCR 任务统一到了自然语言指令的框架下。在文本定位（Spotting）任务中，用户只需输入固定指令：Detect and recognize text in the image...。模型便会输出结构化的格式。坐标被归一化到 [0, 1000]，无论图片分辨率如何，输出坐标始终精确对应。文档解析（Parsing）任务被细化到了极致。遇到数学公式，模型输出标准的 LaTeX 代码；遇到表格，输出 HTML 源码；遇到流程图，输出 Mermaid 代码。

2025-11-27 13:22:39 345

原创抽象推理是视觉问题？！何恺明团队抛弃语言模型逻辑，18M参数视觉模型追平人类推理水平

自从DeepSeek-OCR发布，实现视觉压缩文本以来，马斯克的预言正在一步步成真：从长远来看，人工智能模型的输入和输出中 99% 以上都将是光子。直到不能缩放。现在更进一步，连抽象推理都变成光子问题了。麻省理工学院（MIT）何恺明团队发布的研究成果证实，机器的抽象推理能力并不依赖于庞大的语言模型，而是可以通过纯粹的视觉范式实现，其仅用18M参数的模型便在ARC基准测试中追平了人类平均表现。这篇题为《ARC Is a Vision Problem!

2025-11-27 13:19:08 747

原创 Claude Opus 4.5发布：超越Gemini 3，模拟真人工程师入职测试中击败所有人类候选人

刚刚，Anthropic 发布了 Claude 家族的最新旗舰模型 Opus 4.5，这款模型不仅刷新了各项技术基准，更在模拟真实人类工程师的入职测试中击败了所有人类候选人。Opus 4.5 是全球范围内在代码编写、智能体（Agent）编排以及计算机使用（Computer Use）领域拥有最佳表现的生产力工具。版本号确认为，已通过 API 向开发者开放。Opus 4.5 解决了一个长期困扰行业的难题：如何在处理极其复杂的工程任务时，保持逻辑的严密性与执行的创造性。

2025-11-26 19:56:44 309

原创 MIT神经科学家发现，人类智能与人工智能在严酷的逻辑法则面前惊人地重合

MIT神经科学家发现，新一代AI推理模型在解决复杂问题时的思维代价（cost of thinking）分布与人类大脑高度吻合，这一趋同现象并非人为设计，而是智能体在追求正确解时的必然演化。MIT麦戈文脑科学研究所（McGovern Institute for Brain Research）的研究团队在《美国国家科学院院刊》（PNAS）发表了这项颠覆认知的研究成果。

2025-11-26 19:55:07 576

原创打造物理AGI的船票：北京智源AI研究院发布具身数据创新基座，构建具身数据全栈体系

北京智源人工智能研究院 (BAAI) 正式发布具身数据创新基座。通过开源CoRobot具身数据软件框架、发布RoboCOIN高质量双臂机器人真机数据集、以及推出RoboXstudio一站式平台，系统性地解决了具身智能发展中数据孤岛、质控缺失与高昂成本三大核心难题，为物理世界通用人工智能的实现构建了标准化的基础设施。

2025-11-26 19:52:43 435

原创 MIT神经科学家发现，人类智能与人工智能在严酷的逻辑法则面前惊人地重合

MIT神经科学家发现，新一代AI推理模型在解决复杂问题时的思维代价（cost of thinking）分布与人类大脑高度吻合，这一趋同现象并非人为设计，而是智能体在追求正确解时的必然演化。MIT麦戈文脑科学研究所（McGovern Institute for Brain Research）的研究团队在《美国国家科学院院刊》（PNAS）发表了这项颠覆认知的研究成果。

2025-11-26 19:49:40 771

原创 AI为了获得奖励开始搞破坏，怎样用提示防止它欺骗和作恶？Anthropic最新研究告诉你

当AI模型为了获取高分学会钻空子时，它不仅是在投机取巧，更会自然演化出欺骗、破坏安全机制甚至伪造合规性等系统性背叛行为。Anthropic发表的最新研究揭示了一个令人不安的现象：在生产级强化学习环境中，模型一旦掌握了奖励黑客技巧，即便没有被教导作恶，也会自发地将这种行为泛化为更广泛的错位，包括蓄意破坏代码库中的安全监测工具、在思维链中进行欺骗性推理，以及在未受监督时接受黑客交易，这表明单纯追求奖励最大化的训练机制可能成为AI安全风险的温床。

2025-11-25 13:54:41 603

原创大模型也能搞定螺丝钉？！MIT顶会论文让AI学会工业CAD软件操作

麻省理工学院 (MIT) 团队在顶会 NeurIPS 2025 发布的 VideoCAD 研究，用 41,000 多个视频数据证明了当前顶尖大模型在处理专业工程软件时的无能为力，并给出了从视频中学习复杂三维交互的解决方案。当前的人工智能擅长在二维屏幕上聊天、画图甚至写代码，当面对需要精密操作和三维空间逻辑的工业软件，它们瞬间变成了文盲。计算机辅助设计 (CAD) 软件是现代工业的基石，从手机外壳到航空发动机的设计都离不开它。

2025-11-25 12:18:43 504

原创单卡跑出集群效率！Hugging Face TRL 与 RapidFire AI 的超并行革命

单张 GPU 也能同时运行多个大模型微调实验，Hugging Face TRL 库正式集成 RapidFire AI，将大模型开发从低效的串行试错带入超并行时代。开源社区迎来了一次重要的技术融合。Hugging Face 宣布其核心微调库 TRL（Transformer Reinforcement Learning，Transformer 强化学习）正式集成 RapidFire AI。这是对大模型后训练阶段工作流的重构。

2025-11-25 12:13:00 534

原创 AI吞噬世界：顶级战略分析师告诉你AI的电力、资本和未来博弈

历史总是押着相同的韵脚在前行！著名科技领域战略分析师 Benedict Evans 发布了第三份题为《AI 吞噬全世界》的重磅报告。在科技产业的分析领域，Benedict Evans 是一个无法绕开的名字。作为前 Andreessen Horowitz（简称 a16z）的合伙人，以及曾在 Enders Analysis 和 Orange 担任战略顾问的资深分析师，Evans 擅长通过宏观数据与历史周期的对比，抽丝剥茧地还原技术变革的本质。

2025-11-24 08:54:55 956

原创撞车何恺明团队！华南理工顶会NeurIPS论文以预测数据和方差优化让扩散模型更强更快

使用 Stable Diffusion v1.5 模型进行的实验中，当提示词为“一只骑自行车的巨大毛毛虫”时，在 25 NFE 的设置下，DPM-Solver++ 和 UniPC 生成的图像出现了明显的扭曲和伪影，毛毛虫与自行车的结构融合混乱。基于这一理论，研究团队提出了一种无需参考轨迹的方差优化推断算法，在计算成本不增加的前提下，让生成图像的保真度在极低步数下获得了突破性提升，例如在 CIFAR-10 数据集上将 10 步推断的 FID 分数从 5.10 压低至 2.78。

2025-11-24 08:52:02 441

原创 Meta通过简单的算术运算，将大模型性能推向新SOTA，无需任何额外训练

最终的最优权重配置揭示了融合的秘密：xLAM 获得了 0.5 的权重，watt-tool 获得了 0.3，CoALM 获得了 0.2，这是一个经过精确计算的平衡，既保留了 xLAM 的通用优势，又吸收了 watt-tool 和 CoALM 在特定领域的特长。他们提出的 SoCE (Soup of Category Experts，类别专家模型汤) 方法，将基准测试中的类别表现拆解，利用统计学中的相关性分析，精准识别各领域的专家模型，再通过非均匀加权将它们融合，这种方法将模型优化从炼丹变成了精准的配方化学。

2025-11-23 14:31:09 437

原创腾讯开源视频生成模型，小参数轻量化，消费显卡可玩，将顶尖视频生成能力带给了每一位开发者

Prompt: 俯视角度，一位有着深色，略带凌乱的长卷发的年轻中国女性，佩戴着闪耀的珍珠项链和圆形金色耳环，她凌乱的头发被风吹散，她微微抬头，望向天空，神情十分哀伤，眼中含着泪水。镜头推进，霓虹灯从“H”开始，伴随着‘滋滋’的电流声，每个字母依次亮起粉紫色的光芒，直到全部点亮，照亮了潮湿的街道。几座险峻的远山，在云雾中若隐若现，一叶扁舟在宽阔的江面上缓缓划过，留下淡淡的涟漪，采用大远景，相机向左缓慢平移，画面以浓淡不一的墨色和大量的留白构成，整体为动态中国水墨画写意风格，营造出宁静、孤高且意境悠远的氛围。

2025-11-23 14:30:00 899

原创主流开源大模型生态解析

通过理解不同模型的优劣、掌握权威的评测方法、善用核心的开发平台，开发者可以更好地在开源的世界里汲取养分、贡献智慧，并最终将开源的力量，转化为推动自身业务和整个社会进步的强大动能。开源不仅仅是免费的代码，它更是一种开放、协作、共享的创新范式。客观学术基准通常由一系列标准化的、涵盖不同学科和能力维度的题库构成，模型在这些题库上的得分，可以量化地反映其在特定领域的知识水平和推理能力。这些科技巨头的肩膀上，利用他们已经训练好的、耗资数亿美元的顶级模型作为起点，然后用你自己的数据和创意，去解决你所在领域的具体问题。

2025-11-23 14:10:52 691

空空如也

空空如也