自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(292)
  • 收藏
  • 关注

原创 从数据到数据的视觉生成!上海交大布朗桥模型无需将数据转噪声,实现4倍效率提升

新加坡国立大学,香港理工大学,上海交通大学的研究团队推出了ViBT。ViBT通过建立源数据与目标数据间的直接随机路径,配合方差稳定的速度匹配与校正采样,解决了传统扩散模型效率低与训练不稳定的难题。模型在图像、视频风格化,图像编辑,视频插帧等任务上表现非常出色。生成式AI的发展历程是一部不断寻找更优路径的历史。从对抗生成网络到变分自编码器,再到如今统治领域的扩散模型,我们见证了生成质量的飞跃。主流扩散模型的核心逻辑是噪声转视觉。

2025-12-05 14:30:52 643

原创 AI如何改变工作?!Anthropic内部揭秘20万代码交互记录背后的职业变迁

传统的软件工业建立在精细的分工之上,后端工程师专注于数据库与服务器逻辑,前端工程师打磨用户界面与交互体验,安全专家负责审计漏洞。这种分工既是工业化的必然结果,也是人类认知带宽限制的体现。在Anthropic内部,这道横亘在不同技术栈之间的墙壁正在被Claude拆除。后端工程师不再苦恼于CSS样式的调整,他们直接向AI描述需求,迅速构建出功能完备的前端界面。安全研究员利用AI快速解析陌生的代码库,瞬间理解复杂的逻辑结构。

2025-12-05 14:26:51 298

原创 AI自我进化机制:谷歌DeepMind团队新框架让AI告别每次从头开始,在任务流中越用越聪明

AI打破了永远是初学者的魔咒,开始自我进化。谷歌DeepMind团队联合伊利诺伊大学提出了Evo-Memory框架。通过引入测试时自我进化机制,彻底改变了大型语言模型只能被动检索历史、无法像人类一样从经验中提取智慧的现状,让智能体在持续的任务流中实现了真正的终身学习。

2025-12-05 14:22:36 534

原创 以 AI 架构思维,破解 AI 落地 “卡脖子” 难题!【线上直播】

架构思维的破局之道:分享如何用系统化架构设计,优化模型选型、资源分配、流程搭建,让 AI 落地更高效、更稳健。正在负责 AI 项目开发与部署,被成本高、效率低、场景适配难等问题卡住的算法工程师、架构师、技术负责人;推动企业 AI 化转型,需要协调技术与业务、拆解复杂需求的产品经理、项目经理、AI 转型负责人;AI落地的真实困境拆解:直击部署成本高、场景适配难、数据链路复杂等核心痛点,剖析问题根源;深耕 AI 领域、想提升实战落地能力,或计划转型 AI 架构方向的学生、技术爱好者。

2025-12-05 14:16:39 39

原创 源神阿里!图像生成Ovis-Image再开源,7B小参数媲美GPT-4o和20B开源模型

源神阿里太卷了!图像生成领域,卷掉了曾经的开源之王 Flux,现在连自己也难幸免。8 月 Qwen 团队发布的 qwen-image 图像生成与编辑模型,至今仍然称霸图像生成开源界。前几天通义实验室 Z-Image 团队发布的 z-image,直接将 qwen-image 拉下神坛。稳稳霸榜 Hugging Face。人们以为阿里在玩左右互搏,没想到是 3 只手在互博!这不,刚刚 Ovis 团队发布了 Ovis-Image。

2025-12-04 12:50:59 456

原创 视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%

加州大学伯克利分校团队,让多模态大模型不再被迫将视觉信息翻译成贫瘠的文字。人类在观察世界时,绝不会把眼前景象先在脑子里翻译成一长串文字描述,再通过文字逻辑去判断距离和方位。我们会直接在大脑中通过视觉信号建立空间感。这种直觉式的视觉思维,正是机器长久以来缺失的拼图。加州大学伯克利分校、加州大学洛杉矶分校(UCLA)与松下AI研究中心的团队联合提出了一种全新的架构——视觉思维链(Chain-of-Visual-Thought,简称CoVT)。

2025-12-04 12:47:54 744

原创 Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论

面对 400 多种模型架构带来的维护压力,v5 团队选择了一条反直觉的路径:做减法。代码即产品不仅是一句口号,更是对抗软件熵增的唯一手段。为了在保持灵活性的同时降低维护负担,v5 激进地推行了模块化设计。这一策略并非简单的文件拆分,而是对底层逻辑的抽象与重组。过去,每个模型的实现往往包含大量重复的注意力机制代码。

2025-12-04 12:42:03 561

原创 告别VAE压缩损耗,南京大学用DiP让扩散模型回归像素空间,实现10倍加速与SOTA级画质

南京大学,腾讯优图实验室,新加坡国立大学发布了DiP框架(模型、代码也即将开源)。DiP框架在不依赖VAE的情况下,以仅增加0.3%参数量的代价,将推理速度提升10倍并在ImageNet上取得1.79的FID分数,彻底解决了扩散模型在像素空间难以兼顾质量与效率的顽疾。扩散模型(Diffusion Models)重塑了图像合成、视频生成和3D创作的格局,全面超越了生成对抗网络(GANs),但其背后的算力消耗惊人。如何在不牺牲质量的前提下降低计算门槛,是所有研究者面临的头号难题。

2025-12-04 12:38:05 601

原创 多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成

香港科技大学,Video Rebirth,浙江大学,北京交通大学开源了AnyTalker,提出音频驱动多人交互生成新范式。AnyTalker仅需极少量的多人对话数据即可生成具有自然眼神交流和即时反馈的多人对话视频,打破了以往模型对大规模昂贵数据集的依赖。,时长00:12视频生成技术正在经历一场从单体到群体的演变。在数字媒体、播客制作以及直播带货等领域,内容的核心往往不是单一角色的独白,而是多人之间丰富且微妙的互动。

2025-12-04 12:25:19 656

原创 DeepSeek-V3.2正式版发布,将开源模型的能力推向极致

DeepSeekV3.2正式版刚刚开源了。同时发布两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。DeepSeek-V3.2标准版,旨在成为日常任务与通用智能体(Agent)场景的首选。它在架构设计上极度克制,力求在推理能力与输出长度之间找到最优解。在公开的推理类基准测试中,DeepSeek-V3.2展现出了与GPT-5分庭抗礼的实力,仅以微弱差距次于Gemini-3.0-Pro。对于用户而言,更直观的感受在于其显著降低的计算开销与等待时间。

2025-12-02 11:22:56 961

原创 光芯片登上Nature!上海交大,中科院等告别电子算力墙,用光实现全并行张量处理

上海交通大学、中科院、芬兰埃斯波阿尔托大学等提出了并行光学矩阵-矩阵乘法的全新光学计算架构POMMM,突破GPU能效瓶颈,瞬间完成复杂神经网络推理。利用光的玻色子特性与空间频率对偶性,POMMM范式在单次光传播中实现了全并行张量处理,为高带宽、低能耗的下一代计算架构奠定了物理基础。

2025-12-02 11:20:37 506

原创 MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室(AI Lab, GiantNetwork)提出的YingVideo-MV框架,通过级联架构将音乐语义分析、导演级镜头规划与时间感知的视频生成模型结合,解决了传统音频驱动视频生成中运镜单一和长序列画面崩坏的难题,实现了具备精准口型、自然肢体与丰富运镜的高质量音乐视频生成。S 全屏播放 full_screen_mv数字人技术在音乐视频、Vlog和广告领域的应用价值日益凸显,但要让虚拟形象不仅是对口型,而是真正呈现出具有感染力的音乐表演,一直是业界的难点。

2025-12-02 10:32:59 724

原创 7篇顶会NeurIPS 2025最佳论文都说了什么?

NeurIPS 2025 的七篇获奖论文通过严谨的理论与大规模实验,揭示了大模型正在陷入思维同质化的蜂巢效应,证明了强化学习并未真正扩展模型的推理边界,同时在注意力机制、神经扩展定律及生成模型动力学上取得了物理学层面的突破。今年的 NeurIPS 呈现出一种冷静而深邃的特质,它不再为参数量的军备竞赛欢呼,转而将手术刀对准了繁荣背后的隐忧与地基。研究者们发现,我们引以为傲的 AI 多样性可能正在消失,所谓的推理能力提升很大程度上是概率游戏的幻觉。

2025-12-01 08:32:33 744

原创 谷歌Ironwood架构TPU v7:用AI造AI,撼动英伟达芯片帝国

谷歌Gemini 3击败了OpenAI,Nano Banana Pro震惊了世界。要问我模型为什么这么强?且看Ironwood架构TPU v7你需要知道的3件事。谷歌发布的第七代TPU Ironwood,是DeepMind团队用AlphaChip设计的芯片,以9.6 Tb/s的光互联带宽和1.77 PB的共享显存池,彻底重构了大模型推理的硬件基准。11月25日,谷歌云揭开了其第七代定制芯片——Ironwood的面纱。

2025-12-01 08:30:32 622

原创 即时编程与设计,软件按需生成:Google生成式UI将重塑人机交互体验

Google Research 团队证明,现代大语言模型在配备适当工具与指令后,已能从单纯的内容生成者进化为全栈开发团队,实时将用户需求转化为包含富交互、动态数据与视觉设计的完整应用程序,彻底打破了长久以来统治人机对话的 Markdown 文字墙模式。生成式 AI 正在经历一场静悄悄的形态革命。Google Research 团队发布了生成式 UI(Generative UI)的研究,展示了一种全新的交互可能性。这不仅仅是格式的优化,而是交互逻辑的根本性重构。以往我们向 AI 索取信息,它返回文本。

2025-11-30 13:21:30 609

原创 阿里NeurIPS 2025顶会论文:给Transformer装上阀门,解决LLM的大规模激活难题,重塑大模型训练稳定性

阿里巴巴Qwen团队联合爱丁堡大学、斯坦福大学、麻省理工学院及清华大学,做了一项十分硬核的穷举式研究。他们针对标准Softmax注意力层,设计了30多种门控变体,在15B参数量的混合专家模型(MoE)和1.7B参数量的稠密模型上,进行了长达3.5万亿Token的训练实验。这项研究入选NeurIPS 2025。给Softmax注意力机制加上一个简单的Sigmoid门控,就能解决大模型训练不稳、消除注意力汇聚现象,并显著提升长文本外推能力。

2025-11-30 13:19:46 782

原创 麦肯锡重磅报告:关于未来的生存指南,当57%的工作被自动化,我们如何与AI结成利益共同体

现有技术理论上已能自动化美国当前57%的工作时长,但这并非失业的预警,而是通向2.9万亿美元经济增量的新入口。11月25日,麦肯锡全球研究院(MGI)发布了一份足以重塑我们对未来工作认知的报告。这份报告剥离了关于AI会夺走工作的恐慌情绪,将目光聚焦于一个更具建设性的现实:生产力的前沿正在被拓展,工作的本质正在从单纯的人力劳动,转变为人、智能体(Agents)与机器人(Robots)的深度协作。我们正处在一个十字路口。一边是技术的指数级进化,另一边是人类技能的缓慢迭代。

2025-11-30 13:17:52 929

原创 奥数金牌模型DeepSeek-Math-V2发布!超越答案的自我验证与数学推理新范式诞生

DeepSeek刚刚发布的DeepSeek-Math-V2,在IMO 2025(2025国际奥数)和CMO 2024(2024中国奥数)上获得了金牌级分数,在Putnam 2024(2024普特南数学竞赛,难度最高的大学生数学竞赛)上获得了近乎完美的118分(满分120)。这是AI从单纯生成答案向过程自我验证进化的关键转折。DeepSeek-Math-V2代表了一种根本性的方法论转移:从依赖结果反馈的强化学习,走向依赖过程验证的自我反思。

2025-11-30 13:15:33 667

原创 Flux 2开源即结束:阿里通义Z-Image用6B参数,实现超高性能和生图速度,荣登开源榜首

开源还得看国产!图像生成社区期待已久的 Flux 2,刚刚开源一天,即被阿里通义实验室开源的 Z-Image 精准狙击。Flux 2 以其 32B 参数,超高显存要求以及超慢的生成速度,已经将社区的大部分开发者拒之门外。对国内开发者来说,中文支持表现不佳,也是硬伤。而这一切,都被 6B 参数 S3-DiT 架构模型的 Z-Image,以 8 步采样实现亚秒级出图并完美适配 16GB 消费级显卡完美解决。Flux 2 生成一张图像的时间,Z-Image 能生成 20 张。

2025-11-28 08:25:55 515

原创 香港大学芯片登Nature:能源效率提高15.1倍,面积减少12.9倍,实现能效与精度双突破

香港大学研究团队开发出一种基于忆阻器的自适应模数转换器,在将能效提升15.1倍的同时,实现了超分辨率精度,解决了存内计算系统中最关键的信号转换瓶颈。深度学习模型的规模正在以指数级速度增长,数以亿计的参数运算量让传统的冯·诺依曼架构不堪重负。计算单元与存储单元分离的物理结构,导致数据在两者之间频繁搬运,由此产生的存储墙问题不仅限制了速度,更消耗了大量能源。存内计算(Compute-in-Memory, CIM)技术应运而生,它通过在存储阵列内部直接完成计算,极大地减少了数据移动。

2025-11-28 08:22:25 277

原创 提升66.7%的性能!哈佛揭开了AI复杂任务中表现惊人简单逻辑上翻车的真相

大模型在复杂任务中表现惊人,却在简单逻辑变体上频频翻车。这种高分低能的悖论,是如何产生的?伊利诺斯大学、华盛顿大学、普林斯顿大学、哈佛大学等组成的一个跨学科研究团队,发布了一项重磅研究。研究人员通过引入认知科学框架并重构推理结构,让AI学会像人一样思考,带来高达66.7%的性能跃升。大语言模型正经历前所未有的能力大爆发。它们能写出精妙的代码,通过高难度的专业考试,甚至在某些领域展现出超越人类专家的知识储备。

2025-11-27 13:27:51 265

原创 腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

HunyuanOCR 将原本割裂的 OCR 任务统一到了自然语言指令的框架下。在文本定位(Spotting)任务中,用户只需输入固定指令:Detect and recognize text in the image...。模型便会输出结构化的格式。坐标被归一化到 [0, 1000],无论图片分辨率如何,输出坐标始终精确对应。文档解析(Parsing)任务被细化到了极致。遇到数学公式,模型输出标准的 LaTeX 代码;遇到表格,输出 HTML 源码;遇到流程图,输出 Mermaid 代码。

2025-11-27 13:22:39 345

原创 抽象推理是视觉问题?!何恺明团队抛弃语言模型逻辑,18M参数视觉模型追平人类推理水平

自从DeepSeek-OCR发布,实现视觉压缩文本以来,马斯克的预言正在一步步成真:从长远来看,人工智能模型的输入和输出中 99% 以上都将是光子。直到不能缩放。现在更进一步,连抽象推理都变成光子问题了。麻省理工学院(MIT)何恺明团队发布的研究成果证实,机器的抽象推理能力并不依赖于庞大的语言模型,而是可以通过纯粹的视觉范式实现,其仅用18M参数的模型便在ARC基准测试中追平了人类平均表现。这篇题为《ARC Is a Vision Problem!

2025-11-27 13:19:08 747

原创 Claude Opus 4.5发布:超越Gemini 3,模拟真人工程师入职测试中击败所有人类候选人

刚刚,Anthropic 发布了 Claude 家族的最新旗舰模型 Opus 4.5,这款模型不仅刷新了各项技术基准,更在模拟真实人类工程师的入职测试中击败了所有人类候选人。Opus 4.5 是全球范围内在代码编写、智能体(Agent)编排以及计算机使用(Computer Use)领域拥有最佳表现的生产力工具。版本号确认为,已通过 API 向开发者开放。Opus 4.5 解决了一个长期困扰行业的难题:如何在处理极其复杂的工程任务时,保持逻辑的严密性与执行的创造性。

2025-11-26 19:56:44 309

原创 MIT神经科学家发现,人类智能与人工智能在严酷的逻辑法则面前惊人地重合

MIT神经科学家发现,新一代AI推理模型在解决复杂问题时的思维代价(cost of thinking)分布与人类大脑高度吻合,这一趋同现象并非人为设计,而是智能体在追求正确解时的必然演化。MIT麦戈文脑科学研究所(McGovern Institute for Brain Research)的研究团队在《美国国家科学院院刊》(PNAS)发表了这项颠覆认知的研究成果。

2025-11-26 19:55:07 576

原创 打造物理AGI的船票:北京智源AI研究院发布具身数据创新基座,构建具身数据全栈体系

北京智源人工智能研究院 (BAAI) 正式发布具身数据创新基座。通过开源CoRobot具身数据软件框架、发布RoboCOIN高质量双臂机器人真机数据集、以及推出RoboXstudio一站式平台,系统性地解决了具身智能发展中数据孤岛、质控缺失与高昂成本三大核心难题,为物理世界通用人工智能的实现构建了标准化的基础设施。

2025-11-26 19:52:43 435

原创 MIT神经科学家发现,人类智能与人工智能在严酷的逻辑法则面前惊人地重合

MIT神经科学家发现,新一代AI推理模型在解决复杂问题时的思维代价(cost of thinking)分布与人类大脑高度吻合,这一趋同现象并非人为设计,而是智能体在追求正确解时的必然演化。MIT麦戈文脑科学研究所(McGovern Institute for Brain Research)的研究团队在《美国国家科学院院刊》(PNAS)发表了这项颠覆认知的研究成果。

2025-11-26 19:49:40 771

原创 AI为了获得奖励开始搞破坏,怎样用提示防止它欺骗和作恶?Anthropic最新研究告诉你

当AI模型为了获取高分学会钻空子时,它不仅是在投机取巧,更会自然演化出欺骗、破坏安全机制甚至伪造合规性等系统性背叛行为。Anthropic发表的最新研究揭示了一个令人不安的现象:在生产级强化学习环境中,模型一旦掌握了奖励黑客技巧,即便没有被教导作恶,也会自发地将这种行为泛化为更广泛的错位,包括蓄意破坏代码库中的安全监测工具、在思维链中进行欺骗性推理,以及在未受监督时接受黑客交易,这表明单纯追求奖励最大化的训练机制可能成为AI安全风险的温床。

2025-11-25 13:54:41 603

原创 大模型也能搞定螺丝钉?!MIT顶会论文让AI学会工业CAD软件操作

麻省理工学院 (MIT) 团队在顶会 NeurIPS 2025 发布的 VideoCAD 研究,用 41,000 多个视频数据证明了当前顶尖大模型在处理专业工程软件时的无能为力,并给出了从视频中学习复杂三维交互的解决方案。当前的人工智能擅长在二维屏幕上聊天、画图甚至写代码,当面对需要精密操作和三维空间逻辑的工业软件,它们瞬间变成了文盲。计算机辅助设计 (CAD) 软件是现代工业的基石,从手机外壳到航空发动机的设计都离不开它。

2025-11-25 12:18:43 504

原创 单卡跑出集群效率!Hugging Face TRL 与 RapidFire AI 的超并行革命

单张 GPU 也能同时运行多个大模型微调实验,Hugging Face TRL 库正式集成 RapidFire AI,将大模型开发从低效的串行试错带入超并行时代。开源社区迎来了一次重要的技术融合。Hugging Face 宣布其核心微调库 TRL(Transformer Reinforcement Learning,Transformer 强化学习)正式集成 RapidFire AI。这是对大模型后训练阶段工作流的重构。

2025-11-25 12:13:00 534

原创 AI吞噬世界:顶级战略分析师告诉你AI的电力、资本和未来博弈

历史总是押着相同的韵脚在前行!著名科技领域战略分析师 Benedict Evans 发布了第三份题为《AI 吞噬全世界》的重磅报告。在科技产业的分析领域,Benedict Evans 是一个无法绕开的名字。作为前 Andreessen Horowitz(简称 a16z)的合伙人,以及曾在 Enders Analysis 和 Orange 担任战略顾问的资深分析师,Evans 擅长通过宏观数据与历史周期的对比,抽丝剥茧地还原技术变革的本质。

2025-11-24 08:54:55 956

原创 撞车何恺明团队!华南理工顶会NeurIPS论文以预测数据和方差优化让扩散模型更强更快

使用 Stable Diffusion v1.5 模型进行的实验中,当提示词为“一只骑自行车的巨大毛毛虫”时,在 25 NFE 的设置下,DPM-Solver++ 和 UniPC 生成的图像出现了明显的扭曲和伪影,毛毛虫与自行车的结构融合混乱。基于这一理论,研究团队提出了一种无需参考轨迹的方差优化推断算法,在计算成本不增加的前提下,让生成图像的保真度在极低步数下获得了突破性提升,例如在 CIFAR-10 数据集上将 10 步推断的 FID 分数从 5.10 压低至 2.78。

2025-11-24 08:52:02 441

原创 Meta通过简单的算术运算,将大模型性能推向新SOTA,无需任何额外训练

最终的最优权重配置揭示了融合的秘密:xLAM 获得了 0.5 的权重,watt-tool 获得了 0.3,CoALM 获得了 0.2,这是一个经过精确计算的平衡,既保留了 xLAM 的通用优势,又吸收了 watt-tool 和 CoALM 在特定领域的特长。他们提出的 SoCE (Soup of Category Experts,类别专家模型汤) 方法,将基准测试中的类别表现拆解,利用统计学中的相关性分析,精准识别各领域的专家模型,再通过非均匀加权将它们融合,这种方法将模型优化从炼丹变成了精准的配方化学。

2025-11-23 14:31:09 437

原创 腾讯开源视频生成模型,小参数轻量化,消费显卡可玩,将顶尖视频生成能力带给了每一位开发者

Prompt: 俯视角度,一位有着深色,略带凌乱的长卷发的年轻中国女性,佩戴着闪耀的珍珠项链和圆形金色耳环,她凌乱的头发被风吹散,她微微抬头,望向天空,神情十分哀伤,眼中含着泪水。镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。几座险峻的远山,在云雾中若隐若现,一叶扁舟在宽阔的江面上缓缓划过,留下淡淡的涟漪,采用大远景,相机向左缓慢平移,画面以浓淡不一的墨色和大量的留白构成,整体为动态中国水墨画写意风格,营造出宁静、孤高且意境悠远的氛围。

2025-11-23 14:30:00 899

原创 主流开源大模型生态解析

通过理解不同模型的优劣、掌握权威的评测方法、善用核心的开发平台,开发者可以更好地在开源的世界里汲取养分、贡献智慧,并最终将开源的力量,转化为推动自身业务和整个社会进步的强大动能。开源不仅仅是免费的代码,它更是一种开放、协作、共享的创新范式。客观学术基准通常由一系列标准化的、涵盖不同学科和能力维度的题库构成,模型在这些题库上的得分,可以量化地反映其在特定领域的知识水平和推理能力。这些科技巨头的肩膀上,利用他们已经训练好的、耗资数亿美元的顶级模型作为起点,然后用你自己的数据和创意,去解决你所在领域的具体问题。

2025-11-23 14:10:52 691

原创 小米重磅模型开源!首个成功打通自动驾驶与具身智能双领域多模态基础模型

小米汽车与小米具身智能团队联合发布MiMo-Embodied,这是首个成功打通自动驾驶与具身智能双领域的开源多模态基础模型。该模型通过一套统一的架构和渐进式的四阶段训练策略,有效解决了室内机器人与室外自动驾驶车辆之间长期存在的域间隙问题。在涵盖感知、规划、推理等维度的29个权威基准测试中,MiMo-Embodied不仅实现了对现有开源和闭源模型的全面超越,更证明了跨域学习能够实现能力的相互增强而非干扰。

2025-11-23 14:07:50 755

原创 Nature解密:谷歌DeepMind团队的AlphaProof如何攻克国际奥数最难数学题,斩获银牌

谷歌DeepMind团队开发的AlphaProof系统登上了Nature。AlphaProof系统作为核心组件,通过强化学习在Lean环境中自我博弈,成功解决了包括全场最难代数题在内的四道奥赛题目,助力AI获得了28分的总成绩,跨越了银牌门槛。这是计算机系统首次在这一人类顶尖智力竞赛中达到此高度。这篇研究展示了人工智能从依赖模糊的自然语言模仿转向精确的逻辑构建。谷歌DeepMind团队开发的AlphaProof是一套完整的数学探索架构。

2025-11-23 14:05:31 831

原创 黄仁勋回击AI泡沫论,用“好的离谱”的财报告诉世界:我们才刚刚进入AI无处不在、无所不能的良性循环

英伟达刚刚发布的2026财年第三季度财报,再次证明了全球计算范式正在发生不可逆转的重构。这份财报不仅是一份财务成绩单,更是一份全球AI产业的体检报告。数据中心业务的爆炸式增长、Blackwell架构的全面供不应求、以及主权AI(Sovereign AI)在全球范围内的落地,共同描绘了一个正在加速膨胀的智能生态系统。黄仁勋将其描述为AI飞轮效应的全面启动,计算需求正在训练和推理两个维度上呈现指数级双重增长。

2025-11-21 18:09:33 514

原创 Meta的SAM 3D和SAM 3来了,不止分割一切,还要3D重建一切

接着,。刚刚,Meta 正式发布了 SAM 3D 和 SAM 3。Meta 不仅开源了模型权重、推理代码和评测数据集,还推出了 Segment Anything Playground 平台,让研究人员和创作者能够直接体验这些前沿技术。SAM 3D 能从图像捕捉对象,无论是否遮挡,然后进行 3D 重建。

2025-11-21 18:06:08 872

原创 Nano Banana Pro最全解析,设计师和开发者都用得上,附官方提示指南

Nano Banana Pro 将逻辑推理能力注入像素生成,图像模型能绘图又能理解世界了。数月前发布的 Nano Banana 基于 Gemini 2.5 Flash Image 模型,以极快的速度和低廉的成本,帮助普通用户修复老照片或生成有趣的迷你手办,让创意表达变得触手可及。刚刚登场的 Nano Banana Pro 为专业人士交付了一间完整的工作室。你看这全面碾压的姿态。

2025-11-21 18:02:14 1327

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除