量子位

追踪人工智能新趋势,报道科技行业新突破

  • 博客(10527)
  • 收藏
  • 关注

转载 观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容

刘凡平,毕业于中国科学技术大学,上海市科技专家库专家,曾出版人工智能领域著作4本,发表多篇人工智能领域论文,人工智能技术相关专利20余项,涵盖基础算法研究到大模型架构设计。韩旭于2017年创立文远知行,带领公司在全球11国超30城开展自动驾驶研发、测试和运营,2024年率公司成功登陆纳斯达克,成为“全球通用自动驾驶第一股”、“全球Robotaxi第一股”,2025年率公司成功登陆香港交易所,成为“港股Robotaxi第一股”。他的研究涵盖行为金融学、中国宏观经济、金融市场、卖空、破产重组及公司并购等领域。

2025-11-26 17:33:19 264

转载 全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。镜头以高角度广角拍摄,展现了人群和霓虹灯,随后迅速拉近,聚焦于一位年轻的女性。:通过8.3B参数的DiT架构与3D因果VAE编解码器,实现空间16倍、时间4倍的高效压缩,以最小参数量激发模型潜力,达到业界领先的生成效果。显著降低了使用门槛,提示词构建: 团队同样整理了一个均衡的万量级 (10K) 提示词集(来源于大语言模型生成的提示词及训练视频的描述),覆盖了运动、场景、主体等多个维度。

2025-11-26 17:33:19 84

转载 开源模型叫板Nano Banana Pro!Stable Diffusion原班人马杀回来了

总之,从以上简单实测来看,Flux.2在指令遵循、精细控制方面确实有了很大进步,但如果真正对比谷歌目前最顶级的Nano Banana Pro模型,老实说仍存在一定差距。以及,Flux.2还支持分辨率高达4MP的图像编辑——最常见的4MP分辨率是2560像素(宽) x 1440像素(高),这也常被称为2K或1440p分辨率。听闻上线的消息,我们立刻快速实测了一下Flux.2,可不能让Nano Banana在王位上太孤单了。而Flux.2准确get到了我们的意图,不仅加上了黄色安全帽,而且背景图也没有改变。

2025-11-26 17:33:19 51

转载 爆发力超越波士顿动力液压机器人,PHYBOT M1实现全球首次全尺寸重型电驱人形机器人完美拟人态后空翻

动易科技坚信,只有在接近成人尺度的平台上,成功挑战人类身体极限的动作,才能证明其所依托的硬件架构、驱动系统与控制算法,具备了在真实、复杂、高强度的生产环境中替代乃至超越人类作业的潜力。因此,团队对电机,本体的关键参数进行了预先辩识,在参数辩识的基础上进行域随机化,保证了策略对现实误差更强的泛化能力,极大提升了策略从仿真到实物的转移成功率。当前的数据集质量参差不齐,大部分的数据不符合物理规律,直接使用不理想的数据会严重影响训练质量,导致动作变形,影响机器人的发力。

2025-11-26 17:33:19 83

转载 ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

为突破这一制约,开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架,也要建立高效稳定、弹性伸缩的环境管理运行体系,两者协同才能释放Agentic模型的真正潜力。不管你是想发顶会paper的研究员,还是想给公司搭自动化系统的架构师,或者是想自己搓个Agent玩玩的技术宅,ROCK都会是你绕不开的基础设施。不过要训练好这样的Agent,光有聪明的大模型大脑只是基础,后续还需要对模型进行训练,让模型学会在特定任务环境中规划并执行正确的决策序列。以前你要配置一套集群环境,可能得折腾好几天。

2025-11-26 14:00:35 63

转载 国内最大AI“学术-产业-人才”盛会来了!20位院士+50位院长+300位专家集结北京海淀

为主题,着力加强“学术前沿”与“教育之本”的深度对话和思想碰撞,探索“创新链、产业链、人才链”的深度耦合,为推动“十五五”人工智能发展注入全新动能。除专题会议外,大会还专门设立若干场前瞻、沉浸、可感知的互动体验展览与同期特色活动,构筑“学术-产业”双融平台,让灵感在碰撞中迸发!专题会议,直指AI领域最核心、最前沿的变革力量,呈现一场覆盖技术创新、产业落地与生态构建的全景式思想盛宴!院士把脉AI发展方向,院长共话AI人才培养,学术精英解码AI前沿突破,产业先锋揭秘AI实战智慧。将在北京市海淀区隆重召开!

2025-11-26 14:00:35 50

转载 突破类脑模型性能瓶颈:校正频率偏置实现性能与能效双突破|NeurIPS 2025

如上图所示,团队通过直观的傅里叶频谱分析表明,在“输入→激活→加权”的完整信息流中,与ReLU等传统激活函数会扩展信号的频率带宽不同,脉冲神经元会导致高频成分的快速消散(b-c),进而导致特征模糊(d)。为了验证这一发现,研究者进行了一个简单而直接的对照实验:在脉冲Transformer中,分别采用平均池化(Avg-Pool,低通)和最大池化(Max-Pool,高通)作为token混合器。论文中形象地指出,尽管单个脉冲在频谱上看似乎是「全通」的,但其波形所产生的高频成分是虚假的,无法在网络中有效传播。

2025-11-26 14:00:35 47

转载 英伟达:祝贺谷歌TPU成功,但GPU领先一代

另一边,英伟达CEO黄仁勋一直密切关注谷歌TPU的技术进展,并积极拉拢可能使用TPU的大客户,如OpenAI、Anthropic、Meta等。The Information指出,Meta已是英伟达的核心客户之一,黄仁勋可能通过与Meta达成独家合作,抢先阻止其与谷歌的TPU合作落地。英伟达上周三交出了创纪录的财报,黄仁勋也借此驳斥了AI泡沫的升温言论,但英伟达股价仅在周三短暂上涨,周四便随AI交易信心动摇而回落。有分析师称,鉴于在训练芯片领域难以撼动英伟达的技术优势,挑战其霸权的最大机会在于推理芯片。

2025-11-26 12:21:10 42

转载 90后华人副教授突破30年数学猜想!结论与生成式AI直接相关

Talagrand的猜想是,在高斯空间或布尔超立方体等概率空间上对函数进行“加热平滑”(卷积)操作后,这个函数取到极大值的概率应该比马尔可夫不等式预测的还要低得多。就是说,塔拉格兰卷积猜想认为,经过平滑处理的数据,出现极端异常值的可能性比一般理论预测的要低一个特定的量级。值得关注的是,该论文是一篇关于概率论的纯数学研究,但其结果与机器学习,乃至生成式AI技术有直接的关联。首先,论文中使用的“反向热过程”,是扩散模型在布尔超立方体上的对应,两者具有很高的相似性。具体来说,新的耦合构造利用了沿随机过程的扰动。

2025-11-26 12:21:10 111

转载 Ilya罕见发声:大模型「大力出奇迹」到头了

尤其令人印象深刻的是,欲望是你后天习得的,这很合理,因为你的大脑很智能。也许这并非你的重点,但理解这一点的一种方式是,欲望根植于基因组之中,而基因组本身并不智能。第二种是:即便没有出现这种递归增强,只要你有一个统一的大模型,它的不同实例在全球范围内执行不同任务,不断学习,再把彼此的学习成果整合起来——那么你最终也得到了一种「功能性超级智能」。原则上,就是找到一种可靠的沟通方式,并确保第一个真正意义上的超级智能能够以协调、关怀、有益的方式行事——关心有感知能力的生命、关心人类,尊重民主理念,或多者兼具。

2025-11-26 08:54:33 33

转载 33岁稚晖君,上市公司董事长!

值得一提的是,在不久前,稚晖君还入选工信部公示的人形机器人标准化技术委员会委员名单,担任副主任委员,同时入选的还有宇树科技的创始人、CEO。,通过其与核心团队共同设立的持股平台,以 “协议转让 + 要约收购” 的组合模式,历时4个月完成对上纬新材的收购,总成本约21亿元。实际上,关于智元“以下犯上”以创业公司身份并购上市公司,并非完全没有争议,智元对上纬新材的收购,一定会被载入商业发展史。此外,彭志辉、姜青松、钮嘉均同时任职于智元创新(上海)科技有限公司,仅在公司担任董事职务,不兼任其他行政职务。

2025-11-26 08:54:33 52

转载 国产手机卖到1万6!华为新旗舰,搭载麒麟9030

从数码博主“数码闲聊站”稍早前曝光的跑分信息可以看到,麒麟9030的CPU为1+4+4的9核心设计,包括1颗2.75GHz大核,4颗2.27GHz中核以及4颗1.72GHz小核,GPU则采用Maleoon 935,整体来看“提升还不错”。同时搭载6.2x光学超长焦,同样高达5000万像素,支持12.4x光学品质变焦,光圈为F3.2,并配备OIS和RYYB,这大大增强了远距离拍摄的解析力。还有深航飞飞智能体,你一句话就能让它帮忙订机票,甚至能指定“选一个能看到晚霞的座位”,遇到航班变动它还会第一时间给建议;

2025-11-25 17:28:59 63

转载 小米打通智驾和具身大模型,然后开源了

实验结果显示,MiMo-Embodied在所有感知基准测试、预测、规划中均取得了强劲的性能,在全景语义理解任务中展示了最先进的结果,同时在具有挑战性的局部感知场景中也表现出卓越的鲁棒性。在最后,论文表示还将基于MiMo-Embodied模型的能力,探索具身智能视觉-语言-动作(VLA)模型,以增强复杂环境中的交互,通过自然语言理解实现更直观的任务执行。结果表明,MiMo-Embodied 取得了具有竞争力的结果,与通用多模态模型和专用具身模型相比,在可供性预测和空间理解方面表现出特别的优势。

2025-11-25 17:28:59 67

转载 马斯克开始用Grok替代员工了!最惨部门裁员90%

据此前《连线》爆料,自OpenAI挖走了xAI之前的工程师负责人Uday Ruddarraju和Mike Dalton之后,这对双胞胎兄弟就成了xAI的顶级工程师,并直接向马斯克汇报。xAI是老马2023年创办的AI初创企业,旗下主要产品就是Grok模型,而9月被裁的就是帮忙训练Grok模型的数据标注团队。最直接的矛盾在于,负责平台安全的团队与生成内容的AI系统之间,出现了致命的“权责不对等”。总之,马斯克的AI改造计划在砍向人力成本的同时,也正在砍伤平台安全的根基、核心业务的未来。

2025-11-25 13:31:00 75

转载 学生3年投稿6次被拒,于是吴恩达亲手搓了个评审Agent

它会把你提交的PDF转成Markdown,确认这是学术论文后,自动提炼出一些关键词,比如你实验用了什么标准、你的题目和哪些现有论文类似。然后用搜索工具去arXiv上找最新的相关研究,接着挑出最相关的论文进行总结,之后结合原文和这些总结,按模版给出完整的评审意见,同时提一些。橙色折线则代表在对应人类评分区间内,AI评分≤5.5的比例,从图中可知,随着人类评分的升高,AI评分≤5.5的比例逐渐下降。测试发现,AI和人类审稿人的评分相关性是0.42,人类之间的相关性才0.41,说明这个AI快赶上人类水平了……

2025-11-25 13:31:00 109

转载 Nano Banana新玩法无限套娃!“GPT-5都不会处理这种级别的递归”

画面中,一位中年艺术家正在将电脑屏幕上的图像亲手复制到一张绷好的油画布上,但这个图像本身其实就是这位艺术家绘制该递归图像时的拍摄画面。这场套娃游戏的细节处还是有诸多bug,而且很多人玩儿无限套娃的时候都设定它画出来的是一张老照片,噪点堪比ccd,分辨率很低,给了AI很多可以“出错”的模糊空间。Nano Banana画图,看起来是在用同样的元素套娃,但其实看起来相同的部分是分别随机噪声生成的。增加的7%市场份额,是新发布带来的一时兴起的边缘用户,还是真的迎来了一波新的长期粉丝?推理能力、速度、图像、视频。

2025-11-25 11:20:00 29

转载 荣耀500系列2699元起:人物能实况、路人能消除、照片还能自己“跳出来”

摄像模组沿用了荣耀标志性的“水晶岛”风格,边缘过渡处理得更圆润,握持感比上一代提升一些,无论竖屏刷内容,还是横屏打游戏,手感都更贴合,同时还给那块大电池腾出了空间。荣耀500新增了一个最近社交媒体很火的“破框而出”的Live特效,用户选2~9张照片后,系统会自动识别并分离主体,再通过放大叠加呈现类似裸眼3D的效果。字面意思理解就是,有点像把美图秀秀的“路人消除”搬到了相机里:抓拍街景、演出、旅行的时候,能把无关路人处理掉,主体更突出、画面更干净。(明显这波就是冲着大学生断电场景去的…(痛点打得还蛮准的…

2025-11-25 11:20:00 450

转载 Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。

2025-11-25 09:17:04 50

转载 奥特曼谈OpenAI首款AI硬件:我想拿起它咬一口

在具体的实践过程中,Jony Ive的团队制作了大量精美厚实的书籍,内容涵盖形状的历史、相机的设计等内容,通过研究相关设计线索,引导融合出新硬件产品的形态。,不优先考虑做什么形态的AI产品,而是先探索产品主题,例如改变人类与自然的关系、智能的本质、工具的本质等形而上学的内容。,不确定是否能做出任何产品、不急于证明自己的正确性,直到他们确定,想要创造一个能够了解你所有想法、阅读和言论的AI产品。所以接下来需要留意OpenAI的发布动向,也许是一款可能好用也可能不好用,但当你看到它的第一眼,就会想要咬的设备。

2025-11-25 09:17:04 96

转载 波士顿动力前CTO加盟DeepMind,Gemini要做机器人界的安卓

我们想要构建一个AI系统,一个Gemini基础,这个系统几乎能够做到即插即用,适用于任何身体配置,包括人形机器人,也包括非人形机器人。今年3月,谷歌推出的让机器人拥有多模态理解能力的Gemini Robotics系列,就是从Gemini 2.0系列改造而来。Gemini 3爆火,哈萨比斯紧接着聘请硬件大佬,其实是准备让Gemini当机器人界的安卓。这次Gemini 3爆火,又有硬件大佬加持,在机器人这条赛道上,谷歌也“蠢蠢欲动”。实际上,谷歌想要借Gemini实现机器人领域的突破,也早有苗头。

2025-11-24 17:30:00 75

转载 1米3宇树G1完美上篮!港科大解锁全球首个真实篮球机器人Demo

奖励越低(越难学)的片段,被采样的概率越高。其次,训练一个技能策略,通过模仿相应的HOI数据来学习交互技能,设计了一个统一的HOI模仿奖励机制,用于模仿各种不同的HOI状态转换。虽然团队还没公开完整的技术细节,但结合他们此前让机器人“打篮球”的工作,这次很可能是在之前研究的基础上,进一步改良而来。这就形成了一个连续的、可能的技能变体和转换空间,从而可以利用这些不完美的演示数据,训练出平滑、鲁棒的策略。最后,是训练一个高级控制器(HLC),用于复用已学习的技能来处理复杂任务,同时使用极其简单的任务奖励。

2025-11-24 17:30:00 117

转载 奥特曼承认谷歌威胁到OpenAI!即将推出新模型“Shallotpeat”

谷歌拥有从自研TPU芯片到Google Cloud云服务的完整技术栈,不仅在成本和控制力上占优,还通过向OpenAI等竞争对手出租算力,形成了一道“你烧钱,我赚钱”的独特商业模式。我们必须同时做这么多困难的事情——最好的研究实验室、最好的AI基础设施公司、最好的AI平台/产品公司,这确实很糟糕,但这就是我们的命运。换言之,在传统巨无霸谷歌面前,OpenAI基本不具备财务优势。反过来,OpenAI将要面临的,也不再只是一个技术追赶上来的对手,而是一个在资金、数据、算力、渠道和工程能力上占据优势的科技巨无霸。

2025-11-24 15:30:00 64

转载 陶哲轩亲测:我用Gemini十分钟搞定了困扰学界多年的难题

而这也并非孤例,陶哲轩发现,在Erdős问题网站上,类似的情况时有发生,最近陆陆续续有6个困扰数学界多年的Erdős难题通过AI辅助方法,得以解决。的最新进展,但它们都没有发现,在问题页面下方的评论处已经出现了对该问题第二部分的证伪,并且仍然宣称该问题尚未得到解决。在此基础上,陶哲轩又用了半小时,手动将Gemini的p-adic代数数论证明转换为更为基础的论证方式。至此,该问题在Gemini和人类数学家的协同合作下,得以解决。在AI的协助下,数学将在未来拥有更多的实验,而不仅仅是理论。

2025-11-24 15:30:00 181

转载 田渊栋卡帕西力荐Nano Banana新玩法:论文变漫画、手写解题以假乱真,谷歌这波赢麻了

凭借Gemini、Nano Banana的强势升级,谷歌这次在AI赛道直接鲨疯了,不仅股价创下历史新高,市值还成功超越微软,妥妥的王者归来。这看似只是芝士放对地方的小进步,背后却是这么多年AI技术质的飞跃,它意味着AI已经能理解物理世界的逻辑,精准处理物体相对位置、进行空间定位。我们截图发给Gemini,Gemini也说是AI生成的,仔细看其笔迹过于完美,每个数字“2”的写法几乎完全一样。谷歌是真的押上了全部资源深耕AI,而Gemini 3的发布,标志着他们正式夺回了领先地位,至少目前是这样。

2025-11-24 13:30:00 139

转载 上线4天下载破百万,蚂蚁CTO:灵光要做AGI时代的“支付宝”

之后,灵光也会延续团队的“长板思维”发展:先把灵光的长板做得足够长,再补齐短板,这也是灵光最大化效率的途径,先用核心能力留住用户,而不是简单地堆叠功能。这是蚂蚁的生态链接,也是带有不确定性的机遇。如果过于关注竞争本身,反而会丢失做产品的初心,比如别家出一个新功能,自己就要立马也来做,甚至要求比它原来的做得还要好,这样是得不偿失的。所以蚂蚁在这场竞争中,没有优势也没有劣势,只能说是坚持自己相信的普惠路线,并一直走下去,或许在道路的尽头,就能收获想要的用户和喜爱。把有限的资源聚焦在大的愿景上,所有人一起努力。

2025-11-24 13:30:00 300

转载 谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

现在市面上的模型一经测试,结果挺打脸,像Gemini-Live、GPT-Realtime这些号称能处理实时视觉输入的商业模型,在10分钟视频上的平均准确率还不到15%,视频拉长到120分钟,基本就 记不住了。在他们看来,现在很多多模态模型,看似能看图说话,实则只是把图像信息转换成文字,再用语言模型处理——就像人只看了照片的文字说明,没真正看到照片里的场景。数据集,里面有59万条训练样本,既有真实场景的视频,也有模拟的空间场景,重点标了物体位置、动态变化这些关键信息,就相当于给AI准备了一套空间感知教材。

2025-11-24 11:35:55 83

原创 顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花

不难看出,Lovart在Nano Banana Pro加持之下,不仅精准理解了我们的意图,而且还根据视觉效果,自行调整了展柜的视角,让玩具能够更清晰地呈现。这不仅仅是得益于诸多SOTA大模型本身的能力,更是Lovart独有的操作方式,让生成的结果变得更加可控,最终的效果也趋近于成品;说到调用Nano Banana Pro,除了刚才提到的@的方式之外,在输入框右下角的模型选项中,我们也可以对它进行勾选。动作,Lovart就能自行理解整个画布中各个元素的关系,然后在不破坏整体结构的基础上,严格执行你的要求。

2025-11-24 11:35:55 863

转载 「创业初期全靠人工」,AI笔记独角兽自曝了

无论是销售、项目管理、市场营销、运营,还是产品开发,Fireflies都通过捕捉知识、自动化重复性任务,以及在会议前、会议中、会议后全流程协助完成工作,彻底重塑团队的工作方式。一名自动化工程师补充说,这可不是简单的法律诉讼就能摆平的问题,关键在于,这种行为足以重创Fireflies的品牌形象。只是他恐怕没想到,这篇看似真诚的「小作文」,会在一夜之间,把公司、自己,以及创业伙伴,一并推上了风口浪尖。是的,如今AI笔记领域的佼佼者Fireflies,在真的有「智能」上线之前,是靠纯「人工」起家的。

2025-11-23 18:33:00 82

转载 杭州蚂蚁投了家腾讯系具身智能公司

开放场景的规模化部署才是真正检验机器人能力与工程化体系的时候,我们希望在接下来的几年里,让AI机器人真正进入现实世界,成为稳定可靠的新质生产力节点。在两位联创之外,星尘智能的其他成员在技术和商业领域同样拥有丰富的经验,背景横跨腾讯、谷歌、优必选、百度和华为等前沿科技公司。综上所述,绳驱机器人天生具备高拟人表现力、高动态响应和高交互安全等特性,尤其适合那些需要灵巧操作与人机协作的场景——比如,他们认为,绳驱模式能实现低摩擦、高跟随、连续力域的控制,不会像传统刚性传动那样在齿隙、摩擦或冲击中丢失关键力控信息。

2025-11-23 18:33:00 165

转载 卡帕西大模型横评方法太好玩了!四大AI匿名参赛评分,最强出乎意料

大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。LLM委员会将指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。PS:在GitHub上也收获了1.8k Stars。此外,令人出乎意料的是,模型几乎很少出现明显的偏见,

2025-11-23 12:05:38 42

原创 AI把PC天花板打破了

过去半年里,天禧AI不断迭代到目前最新的3.5版本,完成了从“设备AI”到“个人AI”的转变,具备生成式UI、个人大脑、生态技能与可信安全四大模块,这意味着天禧AI能更好地理解和服务“你”这一个体。联想已经进入到一个结构更优、质量更高、确定性更强的新增长周期——这不仅是一家公司自己的成长周期,也是PC行业的发展周期,更是AI技术与硬件产业深度融合的周期。在研发投入方面,联想持续加码创新。一家以传统硬件出身的公司,在AI时代给出了这样的新答卷,如果再用过去的方式去理解PC、理解联想,似乎已不适配。

2025-11-23 12:05:38 941

转载 沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断

从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这背后体现出数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。这个模型不仅能够精准识别物体、预测抓取点位,还可以结合深度信息,还原物体的三维结构,从而指导机械臂完成稳定、精确的操作。现场展示的视频中,DINO-X Grasp驱动的机器人灵活应对各种形状各异的物品,从食品包装袋到异形障碍物,一抓一个准。于是,性能、成本与能效成了大家追逐的新的平衡点,推理、端侧、强化学习等匹配不同应用任务的专用芯片纷纷涌现。

2025-11-23 09:00:00 336

转载 AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

Joint-GRPO成功地将VLM的语义推理与VDM的视觉生成在细粒度动作层面进行了对齐,使得模型不再是生成模糊的「概念视频」,而是精确的「操作指南」。这充分证明,通过Joint-GRPO实现的专业化分工与协同优化,有效解决了统一模型在「理解」与「生成」能力上的权衡困境,实现了两者性能的同步飞跃。,或即使预测对了「加入芝士」这一动作,在可视化时也可能表现为「倾倒液状芝士」或「放置整片芝士」,与真实烹饪场景中「撒下碎芝士」的细粒度动作不符。他们提出了一个全新的任务范式——「视频作为答案」,并发布了相应模型。

2025-11-22 11:04:28 38

转载 首位“80后”院士,来自北大数院

此前,他亦曾与朱歆文合作,利用他本人与Kedlaya合作发展的p进分析技术,对p进光滑刚性簇上的任意局部系统建立了Simpson函子,突破了Faltings工作中的small条件,并建立了黎曼希尔伯特函子。这是一群2000年前后进入燕园、踏上数学研究道路的数学新星,包括1999级的刘若川,2000级的袁新意、李驰,2001级的鲁健锋、马宗明、肖梁,2002级的王博潼、宋诗畅,2003年的刘一峰等等。刘若川认为,好的科学研究需要好的场域,而一个好场域由好的科研理念、风气,以及多元的、优秀的科学家组成。

2025-11-22 11:04:28 60

转载 国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源

随后,解答将交由Review Studio进行双阶段审查,Physics-Verifier负责检查物理一致性,General-Verifier则进一步检查逻辑、推理过程和计算细节。由于推理往往通过vLLM或SGLang等专门推理引擎进行,而训练则在Megatron或FSDP框架中完成,二者的浮点实现存在微小差异,模型在训练中看到的“旧策略”与真实采样策略并非完全一致。,包括IPhO、APhO、EuPhO这样的国际赛事,以及NBPhO、PanPhO、F=MA等区域性高难赛事。

2025-11-22 11:04:28 76

转载 ChatGPT开始搞社交了

从GPT-5.1(情商高)到这次的群聊功能上线,既没有直击用户核心痛点的革新,也缺乏让人眼前一亮的技术突破,更像是为了 “刷存在感” 而匆忙推出的补充项。中肯地说,上新功能本身无可厚非,但对照谷歌近期Gemini系列的火爆出圈,OpenAI这段时间的更新节奏,总透着一股 “慌慌张张、连滚带爬” 的仓促感。需要注意的是,只有当GPT发言时才会触发计费,费用将计入GPT所回复的那位用户名下,群成员之间的聊天不计费。不过,话说回来,加了AI的群聊可能还真有点不一样,它没准会把你和它的私聊内容抖出去,逗群友一笑。

2025-11-21 17:00:00 120

原创 对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”

时间回到一年前,他在跑业务的过程中惊讶发现,减速器国产了,光栅国产了,很多原来必须靠进口的零部件,现在国产可用了。”说到周而进,范浩强眉飞色舞,“他的思维方式、做事风格,包括对复杂系统的理解,都已经非常适配AI 2.0这个阶段。讲道理,这波大模型和具身智能热潮,和2015年前后的AI 1.0浪潮有着惊人的相似度——热闹、狂奔、巨额融资,到处奔驰着对技术奇点的想象。带着这种预设,原力灵机怀抱着长期的信心,和短期的耐心,“这和现在很多公司追求成立三年就上市、一年就被收购的节奏,是截然不同的”。

2025-11-21 17:00:00 812

转载 4K超分Agent修图师来了!一键救活所有模糊照片

4KAgent在11种不同的图像超分辨率任务上的26个基准测试集进行了广泛测试,包含经典图像超分辨率、真实世界图像超分辨率、多重退化图像复原、大尺度图像超分辨率。,4KAgent把“分析、决策”与“执行、反思”分工到不同的智能体,并通过配置模块灵活地适应不同的复原需求,实现了通用的4K超分能力。:检测并裁剪出输入图像中的人脸,对于每张人脸,4KAgent应用不同的人脸修复方法得到多个修复结果,并基于设计的人脸质量评分Q。例如,树皮上的细密条纹,鹿角的结构,羽绒服的纹理,以及数字的清晰度。

2025-11-21 14:27:03 44

转载 振臂一挥,大半个具身机器人圈都来了!智源研究院:别藏了,谁贡献数据多,谁的大脑就更好用

未来的评测将是可量化、可观测、可追溯的,不管你是哪家的模型,不管你是什么形态的机器人,拉出来遛遛。在现场,智源研究院院长王仲远向厂商们抛出了一个极具诱惑力、又无法拒绝的邀请:“谁家数据贡献得多,将来训练出来的具身大脑在谁家的机器人上就会更好用。能把这些平时在市场上“刺刀见红”的竞争对手聚在一张桌子上,甚至让他们愿意把最核心的“数据资产”拿出来共享,背后攒局的人,正是。在与王仲远的深度交流中,我们发现,这位“带头大哥”正在下一盘大棋:他不想做机器人的“苹果”,他想做具身智能时代的“安卓”

2025-11-21 14:27:03 101

转载 太炸裂了!全网实测Nano Banana Pro,网友:这模型里到底装了什么鬼东西!

它拥有最先进的图像生成和编辑功能,具备更高级的世界知识、文本渲染、精度和控制能力。你瞧,如果把Nano Banana Pro放到一些脑洞大开、拥有各种奇思妙想的网友手中,那才叫一个玩出花了。给一张人物参考图,Nano Banana Pro仅需1分钟就生成了带故事情节的条漫,制作水平令网友直呼可怕。大概要求是,生成一辆自行车车架及组件的爆炸视图,拥有已拆卸的齿轮和链条,以毫米为单位进行尺寸标注等。,整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑。

2025-11-21 14:27:03 429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除