- 博客(159)
- 收藏
- 关注
原创 谁说老实人赚不到钱?Claude用一张3500亿的支票打脸OpenAI
出走5年,估值翻倍!曾被嘲笑「太保守」的Anthropic,正凭3500亿美元身价硬刚OpenAI。看理想主义者如何靠极致安全与Coding神技,在ARR激增的复仇路上,终结Sam Altman的霸权!2026开年最震撼的消息!Anthropic计划融资100亿美金,仅半年,估值就从1830亿涨至3500亿。这不仅是数字的狂飙,更是一场筹谋5年的「完美反击」。当OpenAI深陷人才流失与烧钱的泥沼时,曾被称为「叛逃者」的Amodei兄妹,正带着Claude向旧主的王座发起冲锋。
2026-01-09 16:32:36
344
原创 Transformer已死?DeepMind正在押注另一条AGI路线
借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱:但如果DeepMind要选2025年最重要的研究或产品,那最近火爆的嵌套学习「Nested Learning」必有一席之地。
2026-01-09 16:31:26
387
原创 AI月产十亿行代码,暴增76%!程序员论坛炸锅:代码行数≠生产力!
想知道硅谷的程序员怎么使用AI编程,被2000家公司使用的AI代码审查智能体Greptile基于每月用AI审核的的十亿行代码,发布了AI编程年度报告,揭示了使用AI编程后带来的生产率提升,但对此程序员们却无法感同身受。这份报告最让人震撼的一点,是指出了在AI编程的帮助下,工程师的代码生产量飞涨。每位开发人员,每月提交的代码行数从4450增长到7839,增长幅度达到76%,对于6-15人的中型开发团队,每位开发者提交的代码量更是接近翻倍(提升89%),这意味着AI编程工具正成为一种效率倍增器。
2026-01-09 16:29:58
184
原创 清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开
新版本论文的信息量很大,不止是补了几块附录,正文也被大幅度翻修,几乎像重写了一篇。盼星星盼月亮,千呼万唤的DeepSeek-R2没盼到,还记得去年登上《Nature》封面的那篇关于R1的论文吗?DeepSeek又悄悄给它塞了的技术细节。是的,你没看错,直接从22页干到86页,简直可以当教科书看了……谁能想到,论文发布都快一年过去了,DeepSeek居然还能更这么多东西。
2026-01-09 16:29:05
620
原创 全球最大AI榜单塌房!52%高分答案全是胡扯,硅谷大厂集体造假?
谁能想到,AI界最权威的大模型排行榜,竟然是个彻头彻尾的骗局?最近,2025年底的一篇名为《LMArena is a cancer on AI》的文章被翻了出来。登上了Hacker News的首页,引起轩然大波!炸裂的是,这篇文章直接把LMArena——这个被无数研究者奉为圭臬的评测平台——钉在了耻辱柱上,称其为AI发展的「癌症」。
2026-01-09 16:26:58
327
原创 比豆包手机还狠!Gemini电视登场CES,谷歌打响客厅革命第一枪
CES每年都在找「下一个iPhone时刻」。2026年,答案可能不在手机,而在你家客厅。作为全球规模最大、历史最悠久的消费电子展,CES从来不只是一场产品发布会,而是未来十年科技趋势的「预言书」。从第一台VCR到第一台等离子电视,从蓝光到4K,从智能家居到自动驾驶——无数改变人类生活的技术,都在这里完成首秀。2026年,CES迎来了它最疯狂的一届!此时此刻的国际消费电子展CES上,科技界的「整活」能力再次突破了碳基生物的想象力。
2026-01-08 10:15:56
745
原创 MultiTalk:多角色对话生成SOTA模型,语音-视觉对齐精度达98.7%!
近年来,音频驱动的人体动画技术飞速发展,从逼真的说话头部(Talking Head)到全身动作同步(Talking Body),已能生成高自然度的单人物视频。多音频流输入适配:如何区分并绑定不同人物的音频信号?动态人物定位:当人物在画面中移动时,如何精准定位其运动区域?指令遵循能力:如何让生成的视频严格遵循文本描述的复杂动作(如大幅肢体动作)?MultiTalk以DiT(Diffusion-in-Transformer)为基础的视频扩散模型作为其核心骨架。
2026-01-08 10:12:54
257
原创 Claude Skills 为何火?
Claude Skills确实代表了AI工具发展的重要方向,它将AI从简单的问答工具推进为个性化的工作伙伴。但技术的价值不在于其概念的新颖,而在于能否真正解决实际问题,提升工作效率。对于技术从业者而言,关键是要在拥抱新技术的同时保持理性判断。Skill的创建和使用需要投入时间和精力,要确保这种投入能够产生实际的价值。同时,也要准备好面对技术快速迭代的挑战,不断学习和适应新的协作模式。AI的发展最终还是要回到服务人类、解决实际问题的本质。
2026-01-08 10:11:41
290
原创 机器人的三重生命:工业人工智能如何从模拟演化到合作伙伴
Cogito Tech 的“机器人三生命周期”框架代表了工业机器人领域的一次根本性转变,它将机器人视为不断演进的系统,而非静态工具,并经历三个不同的生命周期阶段:模拟训练、实际部署和持续适应。这种方法直接解决了人工智能应用的关键障碍——安全、数据稀缺和集成成本——使其成为寻求可扩展人工智能实施的制造、物流和供应链运营的关键所在。
2026-01-06 13:27:39
625
原创 NVIDIA推出Alpamayo系列开源AI模型与工具
该系列的后续模型将具备更大的参数规模、更精细的推理能力、更灵活的输入输出方式以及更丰富的商用选项。智能汽车必须在复杂多变的驾驶条件下安全运行。被称为“长尾”的罕见、复杂场景始终是辅助驾驶系统需要攻克的最大难题之一。尽管端到端学习的最新进展已取得显著突破,但要解决这些长尾极端事件,仍需具备安全推理因果关系能力的模型,特别是在遇到的场景超出模型训练经验的情况下。NVIDIA 的开源决策具有变革意义,其开放权限与强大功能将支持我们以前所未有的规模进行训练,并为推动自动驾驶技术的普及提供了更大的灵活性和资源保障。
2026-01-06 13:26:10
290
原创 系统解读:AI Agents 时代的 Memory 技术
LLM 再强,也怕“金鱼脑”——上下文一断就失忆。把 LLM 包装成能持续交互、自我进化的 Agent,必须外挂一块可读写、可增长、可遗忘的记忆体。分享今年看到最系统&最新的 Agents Memory 综述,NUS&人大&复旦&北大&同济等联合出品:《Memory in the Age of AI Agents: A Survey》开源地址:https://github.com/Shichun-Liu/Agent-Memory-Paper-List。
2026-01-06 13:25:10
791
原创 AI教父Bengio警告人类:必须停止ASI研发,防范AI失控末日!
AI 学会了职场「装傻」骗过人类?诺贝尔奖得主为何警告千万别给 AI「发身份证」?从梵蒂冈到硅谷,一群顶尖科学家正在疯狂拉响警报:我们可能正在亲手制造一个不在乎人类死活的「神」。这是正在发生的现实。在肃穆的梵蒂冈,教廷的会议室里,物理学家 Max Tegmark 刚结束了一场漫长的闭门会。在这群西装革履的红衣主教、企业家和人权律师中间,Max Tegmark 显得格格不入。他顶着一头乱蓬蓬的棕发,穿着机车夹克,黑色T恤上印着反通用的标语,看起来不像来见教皇的,倒像是刚从草莓音乐节走错片场的摇滚老炮儿。
2026-01-06 13:22:03
843
原创 Google A2UI技术解析:AI Agent如何构建安全且原生的用户界面
A2UI是一种公开协议,它允许AI Agent通过基于JSON格式的通信方式直接生成用户界面。与仅限于文本通信或使用不安全的 HTML/JavaScript执行方法不同,智能体可以从已获批准的组件目录中进行混合搭配,开发出高级的用户界面。智能体明确传达其用户界面需求;应用程序则使用其原生框架(如React、Flutter、Angular、SwiftUI等)来渲染该界面。
2026-01-06 13:20:18
813
原创 恕我直言:绝大多数原生AI,都是没有“根”的
成功的SaaS产品经过十余年与客户业务流程的共生共长,每个功能都浸透着对业务细节的理解。而原生AI往往跳过这一必经阶段,试图用通用模型解决专业问题。所有的ToB业务,都是“无根不立”和“无痛不存”的。所谓根,广义而言是满足企服市场上,那些未被满足的真实需求;狭义而论,是精准刺入那些长期存在、反复发作却始终无解的业务痛点。这是超越形式与时代的铁律,适用于所有成功的ToB业务,无论你做的是软件、SaaS还是AI。不过在我看来,
2026-01-05 09:45:43
854
原创 张吕敏长视频生成新技术:20秒视频历史压缩成5000个Token,消费级显卡也能跑
斯坦福大学、麻省理工学院(MIT)、卡内基梅隆大学(CMU)和香港科技大学(HKUST)的研究团队提出了一种全新的神经网络结构,专门用于将长视频压缩成短小的上下文。AI绘画界无人不知的张吕敏发新作了。张吕敏(Lvmin Zhang) 是斯坦福计算机科学博士生,AI图像生成领域顶级研究者,业内誉为敏神。他本科毕业于苏州大学,早在大一就发表AI绘画相关论文,本科期间多篇顶会一作。
2026-01-05 09:44:37
852
原创 MIT发现让AI变聪明的秘密,竟然和人类一模一样
这就是递归的意思:AI可以调用自己的分身,让自己帮自己干活。或者再降维一下理解就是:它把这份超长的文档,当成一个。
2026-01-05 09:43:11
870
原创 比SOTA提速10倍!北大DragMesh重塑3D交互,物理零失真
DragMesh的发布不仅仅是提出了一个新的模型,更重要的是验证了一条通往3D世界模型的极简路径。传统方法往往需要针对「旋转」和「平移」分别设计约束,而DragMesh采用的双四元数从数学底层上实现了刚体运动的「大一统」。根据沙勒定理,空间中任意刚体运动都可以描述为螺旋运动。这意味着 DragMesh 的核心架构天然具备描述世间万物复杂运动的能力。无论是机械臂的复合扭转,还是更精密的螺旋传动,DragMesh 无需修改底层架构,即可将其纳入「语义-几何」的统一流形中。
2026-01-05 09:39:11
483
原创 2025年人工智能发展全景报告:趋势、挑战与未来
本报告将揭示2025年AI应用“高采纳率、低转化率”的普遍困境,剖析组织、技术等多重障碍,指出仅少数企业通过战略重塑、流程重构和文化变革成功释放AI价值,并预测向自主智能、主权AI等关键趋势的演进。2025年已经结束,是时候回顾下人工智能发展现状,并展望2026年的发展趋势了。这份报告的撰写基于包括麻省理工学院、普华永道、OpenAI、OpenRouter等在内的众多全球机构的数据。
2026-01-04 16:26:02
659
原创 李飞飞踢馆游戏圈:Unity们,该退场了!
1900亿美金的游戏帝国正迎来寒冬!《原神》式的重金堆砌已近极限,李飞飞携「世界模型」暴力拆解行业规则。从4倍速开发到Genie 3瞬间造梦,AI正在终结搬砖时代。这场关于造物权的豪赌,你准备好成为上帝了吗?在游戏界,我们似乎已经习惯了用「生命」去等待。米哈游的《原神》研发了4年,每年的运营成本超过2亿美元;全球玩家翘首以盼的《GTA6》,距离前作发布已经过去了整整十二年。然而,在那个高耸的技术围墙内,顶级游戏却也在成为开发者的重担。
2026-01-04 16:22:56
602
原创 Anthropic打响「去CUDA」第一枪!210亿美元豪购谷歌100万块TPU
未发先赢,也只有Anthropic了!Claude一小时写完谷歌一整年代码震撼全网,甚至,他们豪购100万块谷歌TPU自建超算。AI军备赛拐点,或许就在这一年。2026年开局,Anthropic未发一弹已占先机!谷歌首席工程师Jaana Dogan连发多帖,高度赞扬Claude Opus 4.5——仅用一小时,便复现了一个曾让谷歌工程师钻研整年的AI系统。
2026-01-04 16:21:43
711
原创 2026,代码苦力之死!谷歌、开源等大佬纷纷公开力挺AI编程!网友爆料:停止招聘初级工程师,已成为事实!程序员旧职级体系已彻底崩塌
2030 年的资深工程师,不会是 2025 年写了最多 AI 辅助代码的人。他们会是那些能在 AI 看不懂的方式出错时,调试 AI 代码的人。他们会是那种在指标出问题之前,就已经“感觉哪里不对”的人。“程序员世界的旧职级体系彻底崩塌了!“代码苦力死了,我为26届的计算机学生感到担忧。2026伊始,AI 对于开发者的冲击,再度成为热议话题。
2026-01-04 16:19:55
636
原创 12种PEFT方法全面评测!DoRA在RLVR推理任务中全面反超LoRA
这篇论文为我们在后R1时代的模型训练提供了极具价值的实操指南:1.别再默认用 LoRA 了:在做 RLVR(尤其是数学推理任务)时,DoRA是一个更强、甚至能超越全量微调的选择。2.避开 SVD 初始化:PiSSA 等方法在 SFT 中可能有效,但在 RL 场景下会因为方向错位而导致崩溃。3.不要过度追求省显存:给适配器留一点秩(Rank),不要使用 Rank-1 或仅微调 LayerNorm,推理能力的涌现需要一定的参数空间。4.学习率很重要LoRA+
2025-12-31 13:27:33
893
原创 OntoMetric:破解ESG报告难题的“大模型+本体知识图谱”新范式,准确率提升10倍
ESG合规要求日益复杂,但标准深嵌于非结构化文档,传统方法难以为继。本文介绍的OntoMetric框架,创新性地结合本体引导的大语言模型(LLM)抽取与双阶段验证,可将ESG文档自动转化为可验证、可追溯的知识图谱。实验证明,该方法将语义准确率从基线的3-10%提升至65-90%,为自动化合规与可持续金融分析提供了高保真、低成本的解决方案。ESG合规要求日益复杂,但标准深嵌于非结构化文档,传统方法难以为继。
2025-12-31 13:26:08
693
原创 智械奇点:Meta数十亿美金并购Manus深度研究报告 —— AI Agent时代的商业范式与地缘博弈
在AI Agent这条通往通用人工智能(AGI)的征途上,Manus的故事或许只是一个开端。它告诉我们,在这个加速波动的时代,技术灵感与工程耐力的结合,配合精准的地缘套利与资本运作,可以创造出何等惊人的商业奇迹。
2025-12-31 13:23:58
1134
原创 吴恩达年终总结:2025是AI工业时代的黎明
2025年着实是精彩绝伦的一年。作为每年的保留节目,吴恩达的年终总结都能带我们回顾全年最重要的人工智能事件和发展趋势。2022年,是AI 的璀璨之年,生成文本、图像、视频、音乐和代码的系统即将到来,引发了关于创造力的未来问题的讨论。2023年,是创新与焦虑的一年,生成式 AI 浪潮席卷了各行各业,其不断扩大的能力引发了智能机器可能会使人类过时的担忧。2024年,是暴风雪般进步的一年,人工智能取得了突破性进展。智能代理系统提升了推理、使用工具和控制桌面应用程序的能力。
2025-12-31 13:22:26
849
原创 惊到了,硅谷工程文化真相研究:真正的工程师,根本没有vibe coding,他们在控制!全自动软件工程,并不符合工程现实!
vibe coding”作为一种热炒的概念,很好传播;但这项论文研究表明:作为一种工程方法,它并不成立。所以,开发者们可以放心了。真正的职业工程师,并没有把方向盘交给 AI,他们只是换了一种方式来控制代码的输出。“凭感觉”编程中的“感觉”,实际上更多是实际积累的“开发经验”。这,或许才是 AI 编程真正进入工程世界的标志。如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。一、全套AGI大模型学习路线。
2025-12-31 13:20:47
785
原创 港大联合字节跳动提出JoVA:一种基于联合自注意力的视频-音频联合生成模型
近日,来自香港大学和字节跳动的研究团队提出了一种简单有效的框架 ——JoVA,它支持视频和音频的 Token 在一个 Transformer 的注意力模块中直接进行跨模态交互。为了解决人物说话时的 “口型 - 语音同步” 问题,JoVA 引入了一个基于面部关键点检测的嘴部区域特定损失 (Mouth-area specific loss)。作者介绍:本文第一作者黄小虎同学,目前是香港大学的三年级在读博士生,导师是韩锴教授。黄小虎的研究方向是以视频为中心的领域,包括音视频生成、视频理解以及视频识别。
2025-12-30 13:04:06
806
原创 14岁CEO自曝真相!硅谷热捧「神童」,但一分钱都不敢给
当成年人还在讨论「该不该转行AI」,10后的天才少年已经把答案写在产品里。最刺痛的不是他们多天才,而是他们用时间和低成本试错,把「执行力」变成了真正的天赋。年仅14岁,他已勇闯YC。这名天才少年名叫Alby Churven,来自澳大利亚Wollongong(伍伦贡),是一位典型的10后。他本人表示,「既惊喜又有点不知所措」。毕竟,这个年纪的大多数人,还在为作业和考试发愁,Churven却意外成了「网红创业者」。
2025-12-30 11:30:25
582
原创 世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?
研究指出了当前模型的一个致命弱点:它们更像是一个只会背诵课本知识的文科生,而不是一个懂得利用视觉数据进行精密计算的理科生。斯坦福大学联合中国科学技术大学的研究团队,针对视觉语言模型(Vision-Language Models)对物理世界的理解能力,推出了世界首个定量评估基准。通过新基准测试发现,尽管GPT-4o或Gemini等顶尖模型在描述物理现象时看似头头是道,但在真正涉及到具体数值计算——如速度、加速度和尺寸估算时,表现甚至无法超越依靠直觉的人类。
2025-12-30 11:25:57
517
原创 阿里通义开源GUI智能体SOTA:2B到235B端云协同重新定义移动端GUI智能体
MAI-UI通过引入端云协同架构、自进化数据管线及扩展的MCP动作空间,在兼顾隐私与效率的同时,全面解决了GUI智能体在真实动态环境中的部署难题。阿里通义实验室开源MAI-UI,从2B到235B全尺寸模型破解真实世界部署难题。MAI-UI通过引入端云协同架构、自进化数据管线及扩展的MCP动作空间,在兼顾隐私与效率的同时,全面解决了GUI智能体在真实动态环境中的部署难题。在手机任务执行能力上,在 AndroidWorld、MobileWorld 等真实导向的基准上,MAI-UI 均创下新的 SOTA。
2025-12-30 11:23:03
1106
原创 如何避免AI转型失败?从数字化转型中取经
要让AI转型重回正轨,我们可以借鉴数字化转型的经验教训。将成本节约和效率提升置于客户/员工的满意度之上,正是最容易出现的错误。这种错误会疏远客户、降低员工能力,严重背离转型初衷。相反,汲取经验教训,将人置于AI转型的核心位置,才是迈向新时代的正道。降本增效是术,而数字化与AI转型应当遵循的是真正的道,代表着最核心的战略决策。虽然多数组织并不认可上述建议,但请相信数字化转型时代留给我们的这份指导和遗产。
2025-12-30 11:06:06
587
原创 AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
飞捷科思智能科技(上海)有限公司(Fysics AI)和复旦大学认知与智能技术实验室(CITLab)研究团队共同正式推出了全球首个面向真实物理世界的统一全模态评测基准——FysicsWorld(中文名称:物理世界)。近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。
2025-12-29 13:39:15
565
原创 英伟达机器人掌门人Jim Fan年度复盘:Vibe Coding火出圈,机器人领域却依然焦头烂额
英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan泼了一盆冷水,jim fan 认为机器人领域还处于混乱状态,就连发展方向都有可能是错的。AK这两天发了一篇推文,引爆了媒体,因为Vibe Coding真的太厉害了,厉害到连AK都焦虑了,AK认为过去一个月没有跟上节奏的人已经对软件行业的认知out了。
2025-12-29 13:37:41
557
原创 用强化学习训练科学AI Agent:NVIDIA NeMo框架实战指南
Agent需要在多个研究步骤中维持高层次规划,整合记忆和上下文管理能力。一个小错误就可能让整个研究任务脱轨。更具挑战性的是,通用大语言模型很难有效使用特定领域的工具,特别是在前沿研究领域。科学研究过程往往伴随着大量重复性工作:阅读海量文献、管理复杂的实验流程、处理庞大的多模态数据集。这些繁琐的任务占据了研究人员大量时间,而科学AI Agent的出现正在改变这一现状。
2025-12-29 13:36:12
447
原创 次提交,全由CC编写!Claude可以连续数天运行,代码已不再是瓶颈
也许正如 Andrej Karpathy、Boris Cherny 等一线从业者所指出的,程序员行业正站在一次剧烈变革的临界点上。在即将到来的2026年,Coding Agent 可能不再是辅助角色,而会逐步成为软件生产流程中的核心组成部分,重新定义个人生产力与工程协作的边界。惊到了!
2025-12-29 13:32:51
742
原创 顶尖高校联合发布重磅AI智能体记忆系统进化全景综述报告
新加坡国立大学、中国人民大学、复旦大学,北京大学等多所顶尖高校联合发布了一篇AI智能体记忆综述。AI的记忆不仅仅是存储过去,它是智能体跨越时间长河、实现持续进化与复杂推理的灵魂核心。过去两年,大语言模型展现了惊人的能力,但若没有记忆,它们只是拥有无限瞬时算力的健忘天才。新加坡国立大学、中国人民大学、复旦大学,北京大学等多所顶尖高校联合发布了一篇AI智能体记忆综述。
2025-12-28 15:06:29
660
原创 两个印度人,搞出全球第一「AI妖股」!0芯片、狂飙550倍看呆英伟达
2名员工、0芯片业务、营收为负,股价却狂飙550倍,这场印度的「AI造富神话」,堪称是对当下全球科技泡沫最辛辣的讽刺。AI泡沫里不仅有神话,还有鬼话。你可能从未听说过RRP半导体有限公司,但此刻一定在懊悔两年前没能押注这家公司。这家仅2名正式员工的印度公司,在此期间股价竟暴涨550倍!而过去两年间,英伟达股价涨幅超250%,可谓相形见绌。
2025-12-28 15:04:17
660
原创 单卡2秒生成一个视频!清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了
除了注意力,模型中的线性层(Linear Layer)也占大量计算。TurboDiffusion对其采用W8A8量化(权重8位,激活8位),并在128×128的块粒度上分块处理,充分利用RTX 5090的INT8 Tensor Core。此外,团队还用Triton/CUDA重写了LayerNorm、RMSNorm等基础算子,消除PyTorch默认实现的overhead。这四项技术环环相扣:蒸馏减步数,量化减负载,SLA和SageAttention减算力。最终汇聚成了那惊人的200倍加速。
2025-12-26 15:09:35
674
原创 向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
我们发现,以真实的下游任务为黄金基准,HNSW在很多任务上表现并不好,在多模态的道路上,RAG还远没到标准化的程度,我们以往针对向量检索算法的评估体系,也只是海平面上的冰山一角。将多模态数据纳入到RAG,甚至Agent框架,是目前LLM应用领域最火热的主题之一,针对多模态数据最自然的召回方式,便是向量检索。然而,我们正在依赖的这一整套embedding→向量检索→下游任务的流程,。很多人认为向量检索方法已经被标准化了,用到向量检索算法就无脑上HNSW。
2025-12-26 15:07:50
894
原创 字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
Scaling Law加持下,这个名为Seed Prover 1.5的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。字节最新数学推理专用模型,刚刚刷新战绩:拿下IMO金牌成绩。加持下,这个名为的模型,在16.5小时内,顺利解决IMO 2025的前5道题目,在仅失一题的情况下拿到35分,达到今年IMO的金牌线。这一成绩与7月官方认证的IMO金牌“选手”谷歌Gemini打平。
2025-12-26 15:05:23
684
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅