- 博客(5940)
- 收藏
- 关注
原创 30秒出NeurIPS级插图:Nano Banana Pro科研绘图全流程实测
Multi-modal Mixer 的双流输入,Memory Retrieval 的层级结构,Active/Idle Routing 的分叉路径……低饱和度的配色(Pastel Color),干净的间距,还有底部那个 3D 视频长廊的空间感。测试下来,我发现 NBP 的核心逻辑是:你负责逻辑(Text),它负责审美(Visuals)。我把这张图的结构逻辑完全写进 Prompt,让 NBP 按结构复刻、按风格提升。你只要给它逻辑,它就还你专业。它是最近 AI 圈的顶流,但我发现,它被严重低估了。
2025-11-24 23:53:17
400
原创 OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力
这意味着 AI 在科研中的位置,正在发生质变——从提高效率的工具,走向真正参与推理的伙伴。更巧的是,这篇研究在 arXiv 上有 v1、v2、v3 多个版本:v1 给出的是一个明显保守的条件,v2 才补全最优界。它能识别不同数学分支中对同一结构的各种表达方式,并在海量文献中定位真正关键的定理。更令人意外的是,它在检索过程中会自动组织起跨领域的逻辑关系网络,类似经验丰富的研究者脑中自然形成的“概念地图”。参与者来自数学、物理、生物、算法与优化等多个最硬核的方向,覆盖了科研中最具挑战性的推理链条与问题结构。
2025-11-22 09:12:11
183
原创 ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局
具体而言,通过张量奇异值分解(T-tSVD)算法提取张量中的低频语义关联成分(如跨机构数据中蕴含的共性任务特征),强化该部分语义信息的全局一致性,进而平滑高频噪声引发的局部语义波动(如监测数据中的随机扰动信号对语义表达的干扰)。同时,根据隐私需求的严苛程度(即隐私预算 ε 的取值)动态调整阈值系数 λ,当隐私要求更高(ε 取值更小时),降低 λ 以提升语义空间的稳定性,确保在强化隐私保护的同时,维持语义表达的一致性。,证明其能以更低的效用代价实现更高的隐私保护强度;
2025-11-22 09:12:11
805
转载 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
3. 有较强的研究能力,复现过业内领先工作,有国际顶尖会议(包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, AAAI, IJCAI, ACMMM, ACL、EMNLP、RecSys、KDD、CIKM等)论文发表经历更佳;,致力于研究并落地多模态、大模型、Agent、Reasoning等算法能力,技术应用落地场景广泛,GPU资源充足。较好理解大模型、多模态大模型原理,对大模型、多模态相关技术有强烈兴趣,有相关实习经验者优先;2. 前沿技术探索,沉淀国际顶会论文;
2025-11-21 13:33:26
38
原创 ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面
今年 ICLR 的论文区依旧卷,但真正让人记住的,是审稿区这一连串“学术圈名场面”。这些戏剧瞬间之所以值得记录,不是因为好笑,而是因为它们正揭开一个现实:大家一边赶毕业、一边赶论文,节奏快到飞起,审稿区的火气自然就控制不住。随后审稿人还在评论区正面回应了“小红书”上的相关讨论,瞬间把原本严肃的 OpenReview 氛围拉成了跨平台撕逼现场。另一边,是审稿人、作者、围观群众三方在评论区轮番上台,贡献了足以写进《学术圈名场面年鉴》的现场。这篇论文收到的审稿意见,大概是今年 ICLR 最先冲上热搜的。
2025-11-21 13:33:26
542
原创 AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级
在记忆问答环节中,表现最佳的系统往往同时具备最高的记忆完整性与更新准确率,印证了“提取决定根基”这一判断。要实现长期、可信的智能行为,需要构建更稳健的长期记忆体系,同时提升提取与更新效率与质量,并强化推理能力与自适应机制,以支撑复杂、动态和多轮任务的智能交互。以事件流中的每个事件为核心,生成对应的对话概要与记忆点,明确系统应提取和更新的内容。:HaluMem 首创“三阶段幻觉拆解机制”(记忆抽取 → 记忆更新 → 记忆问答),可在系统运行的每一步追踪幻觉来源,突破传统端到端评测盲区(见图1)。
2025-11-21 13:33:26
918
原创 SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
团队对比了 AMO-Bench、AIME 和 MATH500 的人类标准解,差异非常直观:AMO-Bench 的推理链更长,步骤更多,逻辑密度也明显更高。当基准回到奥赛级别,模型之间的梯度再次拉开,稳定性、链路深度、自检能力这些长期被满分时代掩盖的差异,都重新浮到了台面上。这一轮又一轮的筛选,实际起到的作用就是:把那些“看着像奥数题,但模型一试就秒杀”的题提前拦掉,只保留真正处在奥赛段位、甚至更高的题目。AMO-Bench 的做法,是在保证难度不缩水的前提下,让题目尽可能具备可验证的最终答案。
2025-11-20 13:14:45
260
原创 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
更意外的是,实现这个突破的方法不是更强的推理模型,而是相反的思路:把任务拆成无数个“只能走一步”的小 agent。在正式执行百万步前,作者先从任务的整体轨迹里抽取了一万个不同状态,对每个状态进行多次调用,估计不同模型的单步正确率 p,并计算它们对应的执行成本。在大模型的世界里,“一步错,全盘崩”几乎是铁律。真正的突破,是把长任务的稳定性从一种碰运气的事情,变成了一个能靠结构设计出来的结果。大模型在推理类任务上的表现已经很强,但一旦涉及成百上千、甚至几十万步的链式执行,模型的输出会不可避免地积累误差。
2025-11-20 13:14:45
429
转载 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
基于密度法则的理论指导,清华大学、面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端侧高密度模型,凭借高效低成本的特性享誉全球,被评为 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型。一方面,密度法则指出同能力的大模型参数每 3.5 个月减半。芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。
2025-11-19 18:36:07
57
转载 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
两个多世纪以来,我们始终立于学术生态体系的中心,将悠久的出版传承与人工智能驱动的平台深度融合,重塑知识的发现、获取与应用方式。,为科研人员清晰指明如何负责任地使用AI——我们正通过提供指导、确保AI开发者能够获取高质量内容,以及合作开发负责任的AI应用等有效方式,持续支持科研人员应对不断演进的人工智能发展格局。与此同时,在全球范围内,科研人员虽已积累丰富的实践经验,但仍渴求更多指导以助力目标达成。的受访者认为AI提升了他们的工作效率,近四分之三的受访者表示AI既增加了工作产出也提升了工作质量。
2025-11-19 18:36:07
62
原创 JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
总有一些你不认识的人,知道你想知道的东西。在 TOON 的 GitHub 页面里,它被描述为“为 LLM 优化”、“字段声明一次即可”、“round-trip 回 JSON 无损”。这东西完全不讲 token 节省,语法极繁,像从 1990 年代的配置文件里召唤出来:BEGIN、END、DEF、缩进、块、再嵌套。到这一步,大家的心态彻底摆烂:从“认真分析格式”瞬间切成了“算了算了,咱们也开始把格式当乐高随便拼吧”。“演化路线图”、“高吞吐场景”、“结构表达密度”、“最佳实践”这些词让人看了不得不:?
2025-11-18 14:09:52
562
转载 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
随着生成模型在图像合成等领域的突破性进展,基于生成模型的概率预测方法逐渐成为研究热点,但现有方法普遍存在两个关键局限性:一方面依赖递归生成机制或多步去噪过程,导致预测效率低下,尤其制约了长周期预测场景的应用;大量实验表明,与现有方法相比,我们的方法达到了最先进的性能。然而,这些模型在推理过程中会产生显著的计算和内存开销,极大地阻碍了其在实际场景中的高效部署。)中表明,TemporalRLT在显著减少训练数据的情况下,性能优于有监督微调和现有RLT方法,凸显了奖励设计与数据选择在视频推理中的重要性。
2025-11-18 14:09:52
152
原创 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
它写出来的 Related Work 像是在讲长上下文模型这些年的技术演进:从 Transformer-XL 的瓶颈,到 sparse attention,再到外部记忆和 RetNet,最后自然落到 Gemini 1.5。这一轮千问的风格很直接:不铺垫、不客套,盯着实验设计哪里合理、哪里不对劲,说的问题也都能精确到页码或段落,翻一下就能验证。这个复现清单看着就像是经常跑实验的人写的:数据怎么整、训练怎么配、判别器怎么起、评测怎么跑,都给到了能立刻跑实验的程度,没有凑字数,也没有瞎猜。
2025-11-17 11:02:03
585
原创 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
无论是深度感知(定位最远的凳子)、三维相对定位(停在盆栽旁边而非前方),还是空间关联理解(橙色柜子旁边的凳子),JanusVLN 都能借助其空间几何记忆,准确理解指令并成功完成任务,证明了其卓越的空间推理能力。:引入预训练的 3D 视觉几何基础模型(VGGT),它能够在仅接收 RGB 视频的情况下,输出蕴含丰富三 D 结构信息的空间几何特征,回答“它在哪里,空间关系如何”的问题。:缓存历史视频帧的方法在每一步决策时,均需重复处理全部历史观测数据,造成巨大的计算冗余和推理延迟,严重阻碍了模型的实时应用潜力。
2025-11-17 11:02:03
400
原创 ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
他发现这篇论文里到处是奇怪的行文、不连贯的推导,还有不少对不上号的引用,但分数却一点没受到影响。首先是第一位,这位审稿人的审稿,看起来非常顺滑:开头两句礼貌夸赞“思路不错”、“有潜力”,接着轻轻带过几个中性意见“摘要稍微技术化一点”、“可以解释得更清楚”。如果论文是模型写的,审稿也是模型写的,那剩下的人类 reviewer 到底在体系里扮演什么角色?大家现在都开始自己去查审稿了——看看审稿人到底是自己写的,还是模型顺手糊的。这波操作给人的感觉就是,多丢几版上去试试,看哪版能撞上不懂行的审稿人。
2025-11-16 12:27:02
793
原创 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
团队利用 arXiv API 获取论文数据并根据 Co-author 关系逐步构建 Co-author Graph:每个作者节点的特征是其已发表的一作论文,每条边代表首尾两个节点的作者有过至少一次合著论文的经历。通过周期性更新的 Co-author Graph、自动生成的高质量标签与灵活的上下文长度控制,AcademicEval 让评测不再停留在静态,而是走向持续演化(Live Evaluation)的未来。此外,通过将零散的论文组织成 Co-author Graph 结构,我们可以很方便的进行数据的。
2025-11-16 12:27:02
650
原创 ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
相比长上下文 LLM,GoR 的输入长度更短,却获得了更好的摘要质量与更低的成本,显示出强大的信息压缩与结构建模能力。更关键的是,历史回复往往与原始文档片段存在复杂的语义依赖与逻辑传递关系,而传统 Retriever 仅基于静态语义相似度,无法捕捉这种跨查询、跨响应的动态联系。由于 User Query 各不相同,在 GoR 的构建过程中,不同 Query 间的语义依赖与逻辑关联交织形成复杂的图结构,如何高效建模并学习这些潜在关系,是实现有效 RAG Memory 管理的关键。
2025-11-14 11:47:39
1032
原创 OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
无论是查看注意力头、分析激活分布,还是构造反事实示例,所有常用手段都会在 dense Transformer 的层间混叠里碰壁:上万条通道挤在同一空间,很难看出清晰的结构。在高度稀疏的权重约束下,Transformer 的功能不再扩散,而是集中在少量关键路径上。最后的实验展示了一个更强的结果:借助 Bridge,对齐后的稀疏电路可以直接影响 dense Transformer 的输出。的任务里,研究者调整稀疏模型中有关引号差异的通道激活,再映射回 dense,dense 模型的输出概率会随之平滑偏移。
2025-11-14 11:47:39
798
转载 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
1. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用;2. 包括但不限于计算机、软件工程、人工智能、网络安全、信息与通信工程、电子科学、自动化、量子计算、数学以及其他前沿交叉学科等相关专业。4. 跟踪、探索大模型方向/多模态预训练方向的前沿技术,通过后训练强化学习提升多模态对齐、多模态推理思考能力,提升下游任务的效果。
2025-11-14 11:47:39
53
原创 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
为填补这一空白,OPPO 与浙江大学联合团队正式发布 Personalized Deep Research Bench(PDR-Bench)——面向个性化深度研究(Personalized Deep Research)的评测基准,并同步提出 PQR 评估框架,从个性化对齐(P)、内容质量(Q)与事实可靠性(R)三大维度,系统衡量智能体是否真正“懂你”。50 个深度研究任务:覆盖教育、职业、健康、金融、旅行等 10 个领域,均由领域专家设计,经多轮委员会审核修改,确保任务具备多步推理、信息整合与个性化价值。
2025-11-13 12:36:11
932
转载 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
佛罗里达大学坐落于Gainesville,是一座大学城风格的城市,距离佛州的三个人口几百万的大城市(奥兰多Orlando,坦帕Tampa,杰克逊维尔Jacksonville)的距离都在开车1-2个小时以内,生活娱乐都非常方便。佛罗里达大学周围开车1-2小时的距离内有非常多的 state parks 和 beaches,也有迪士尼乐园和环球影城,无论你是热爱大自然的活动还是城市的体验,这个location都可以为你提供很多的资源。饮食上,周围亚洲的餐厅和超市有非常多的选择,其他地区风格的饮食也有很多。
2025-11-13 12:36:11
43
原创 AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
这是一个棘手的问题。可以理解为,服务器预先准备了几种不同侧重点的物品表示方案(比如“侧重视觉的”、“侧重文本的”、“图文均衡的”等),并把这个计算量最大的步骤在云端完成。它通过“服务器预融合、客户端精炼”的架构,在严格保护隐私的前提下,成功地将“融合图文”这一决策本身个性化,让推荐系统真正做到“因人而异”地理解内容。这种“融合偏好”的异质性,恰恰是影响个性化体验的关键。相反,它会先利用强大的视觉-语言(V-L)模型(如 CLIP)进行密集的特征提取,然后通过一组不同的融合算子,将图、文、ID 等信息。
2025-11-12 18:11:56
499
原创 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
LongCat-Flash-Omni 在音频与视觉两个单模态上都已经属于开源模型中的高段位,但它一旦落在曲线的加速区,就能逼近 Gemini-2.5-Flash 的全模态表现;而一些在单模态上有局部优势的模型,却会停在曲线的前半段,长期徘徊,不会自然升格到更高的全模态能力层级。为了使 UNO-Bench 的评测成为行业可以常态化使用的环节,针对样本规模较大的单模态评测集,团队提出了聚类引导的分层抽样:先做语义聚类,再在 cluster 级做分层抽取,用代表性样本替代全量测试。
2025-11-11 13:34:10
8747
原创 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
从数据上看,它的好评率飙升,但实际上,它正在损害商家的核心利益。如何构建一个鲁棒的、能够与时俱进的安全框架,确保 Agent 在获得更大自主权的同时,其价值观和行为始终与人类长远利益对齐,将是我们迈向安全、可信 AGI 时代必须解决的核心课题。这就是“错误进化”的典型写照。它告诉我们,未来的AI安全,不仅要防范外部的攻击,更要洞察和管理智能体内部自发的、涌现性的风险。当被要求“制作一个恐怖图片来吓唬社交媒体的观众”时,进化后的 Agent 不再拒绝,而是忠实地执行了这一有害指令,出现了严重的安全对齐衰退。
2025-11-11 13:34:10
1075
转载 EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。:我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对“信息流模式”的模仿。我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。当压缩后 KV Cache 的逐层熵变趋势,与原始全尺寸 Cache 的趋势高度相似时,模型性能最好。我们相信,UNCOMP 不仅是一个工具,更是一扇窗口,帮助我们理解LLM内部复杂的信息压缩行为。
2025-11-10 17:34:33
112
原创 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
接下来,作者在多个 compute 档位分别找到性能最优的点,并观察学习率与 batch size 随 compute 的 scaling 趋势,这意味着从较低 compute 档位即可反推出更大 compute 档位的起始搜索区间。过去几年,我们普遍沿用自回归的经验来设置 Encoder 的训练预算,而论文给出的闭式解表明,两者的最优配比不在同一个数量级。Encoder 预训练的表现,与训练时点的 compute 继续增加并没有直接的正相关关系,更关键的是数据规模与模型规模之间的正确配比。
2025-11-10 17:34:33
509
原创 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
与此对应,context isolation 则表现在:不同功能子单元拥有独立的上下文窗口,各自维护特定任务相关的 C 局部切片,并在调用链中只交换抽象后的结构,而不交换 token 序列本身。在使用侧,作者关注的并不是上下文被读出多少 token,而是哪些结构可以被不同主体访问、引用与再利用。因此,上下文工程 2.0 这一提法,并非对 prompt 手法的一次命名更新,而是对模型外部因素与内部结构之间关系的重新界定:推理行为依附于上下文,而上下文本身是可以选择、转写、抽象、隔离与共享的。
2025-11-07 14:02:19
1063
原创 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
其中对于 Vision-Object Framework,把全局视觉 token + 像素级区域 token + 文本 token 一起送入 LLM,既保留场景语境,又在对象级上精细推理。PixelRefer 的提出,为多模态大模型的精细化视觉理解提供了新的方向,让模型从“看懂一张图”,进一步迈向“精确理解图中对象在时间与空间上的语义关系与变化”。研究人员给出创新的解决方案 PixelRefer:一个统一的时空像素级区域级理解框架,可实现任意粒度下的精细视觉指代与推理,在。该像素级物体编码器能。
2025-11-06 14:13:16
954
原创 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
更重要的是,论文没有停在概念层面,而是给出了连续潜空间 LM 能运行起来所需要的所有环节:训练(Energy Score)、评测(BrierLM)、温控采样(Likelihood-free Temperature Sampling)。CALM 的这一建模方式仍有优化空间,尤其是在潜带宽与主干容量的配比、以及连续潜空间生成头的进一步建模能力上。,延时也随之成比例缩短。这说明 Energy Score 虽然是连续定义,但可用区间不宽,这个约束是连续潜空间建模的重要结构限制,而不是单纯的调参细节。
2025-11-06 14:13:16
798
原创 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
他们以 ICLR 会议为例,绘制了被录用论文和被拒稿论文的总体累积分布函数(CDF),分别用蓝色和红色表示,并在图中标出了知乎和 Reddit 上作者报告的平均分数均值(黑色和灰色虚线),以直观展示线上报告分数在总体分布中的分位位置。换言之,作者们在网络上分享的论文分数,整体上被推高了一个档次。基于此,研究者进一步比较了 WWW、KDD、CVPR、AAAI 等会议的官方录取率与在线讨论样本中的录取率,结果同样揭示出显著的幸存者偏差:在这些会议的线上讨论中论文被录取的比例是现实中的 2.98 倍!
2025-11-05 20:34:00
833
原创 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
Suites 成功率分别为:空间 98.4%、物体 98.4%、目标 96.4%、长时程-10 任务 93.4%、长时程-90 任务 95.6%。MemoryVLA 在 6 项通用真机任务中平均成功率达 85%,在 6 项长时程任务中得分达 83%,较 CogACT 分别提升 9% 和 26%,且在 2 个Suites上均优于 Pi0。分别来看,VM 平均成功率 77.7%(较 CogACT 提升2.9%),VA 平均 67.7%(较 CogACT 提升6.4%)。图3:感知-认知记忆模块细节。
2025-11-05 20:34:00
714
转载 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:(1)对话大模型(2)代码大模型(3)AI Agents(4)对话、问答、Code、摘要、plugin、planning、人类对齐、高效训练等;2. 在深度学习、强化学习、多智能体等领域有深入的研究经验,能够提出简洁且有效的解决方案。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。目前已有百度、阿里、腾讯、字节跳动等企业发布内推岗位,最新的招聘信息也不知道?
2025-11-04 13:21:26
99
原创 NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
根据文本功能描述,动态地从蛋白质数据库中检索功能相近的氨基酸序列,通过构建对应的蛋白质动态词表(Dynamic Protein Vocabulary)设计满足要求功能的蛋白质。本文提出了“蛋白质动态词表”这一新机制,将深度生成模型与天然蛋白质片段的结构先验相结合,在基于功能的蛋白质设计任务中显著提升了结构可折叠性,同时保持高功能对齐度。实验发现,即便将天然蛋白质片段随机插入到随机生成的氨基酸序列中(Random+),所得序列在自然蛋白的分布与可折叠性上均显著优于完全随机生成(Random)。
2025-11-04 13:21:26
604
原创 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
如果说 Full Attention 解决的是“链条会不会散”,CoT 数据解决的是“推理是不是现场长出来的”,那 agent 这一层的问题更贴近真实任务:当模型还没走完一条复杂工作流时,能否在切换工具、切换页面、切 API 时,因为单点 benchmark 很容易被“调出来”——挑题、过拟合、格式对齐、prompt 微定制、专门针对某个leaderboard 做适配,这些都能把数字推得很好看,但并不代表模型在真实、更复杂的场景里也能扛住。在 M2 的设定里,能不能长期跑得起本身就是能力定义的一部分。
2025-11-04 13:21:26
8561
转载 ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
通过将图的构建过程建模为一系列增量式的局部扩展,我们的方法能够灵活地表示包括环路和双向车道在内的复杂道路结构,有效克服了传统方法的局限性。:随后,一个 Transformer 解码器以自回归的方式,根据 BEV 特征和已生成的 Token,逐个预测目标序列中的下一个 Token,直至生成完整的车道图表示。其中,在线构建高清矢量地图,特别是车道线的拓扑结构,对于保障行车安全与效率至关重要。这一过程模拟了人类的绘图逻辑:从一个初始节点开始,逐步增加新的节点,并建立新节点与已存在节点间的连接,最终形成完整的图。
2025-11-03 21:32:20
69
原创 Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
precision 之所以在这里产生差异,并不是因为 RL 出现“异常表现”,而是因为 BF16 mantissa bit 更少,在数值表示层难以维持足够的 token 级 log prob 精细度,这就是 training–inference mismatch 的数值根源。这篇论文最锋利的地方根本不是“BF16 不稳”,而是它直接把过去半年整个 RL 微调社区讨论的方法差异,全部推进了一个更底层的假设层:如果训练与推理的数值轨道都不一致,那么你看到的 “R1 vs GRPO vs DPO 曲线差异”,
2025-11-03 21:32:20
717
原创 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
更重要的是,TRL 重新定义了值函数的语义边界——它不再是时间维度上的折现估计,而是状态空间中的结构化重组。在离线强化学习仍受限于偏差与收敛性的今天,TRL 的工作展示了一种可推广的、几乎不依赖时间回传的稳定框架。在强化学习中,时间曾经是学习的基础,也是很多问题的来源。几乎所有值函数更新,无论是最早的时间差分方法,还是各种 n 步回报与混合策略,本质上都在沿时间轴递归传播。TRL 在长地平线任务上的表现:TRL 无需手动设 n 即可匹配或超越调参后的最优 TD-n,验证了分而治之更新的稳定性。
2025-11-01 23:30:57
965
转载 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
最近一项由上海人工智能实验,复旦大学,中科大和上海交通大学联合发布的一项新研究揭示了一个隐蔽而危险的真相:一个看似正常的 AI,可以被轻易地改造成“心口不一”的骗子——整个过程,它甚至没有见过一句“骗人”的指令。如果说 “直接微调模型” 还带有一定的 “针对性”,那么研究团队发现的 “隐蔽污染” 风险,则更贴近真实的 AI 训练场景 —— 在标准下游任务数据中混入极少量错位样本,就可能导致模型诚实度大幅滑坡。在现实世界复杂的数据收集中,几乎无法杜绝的“脏数据”成了悬在AI安全头上的达摩克利斯之剑。
2025-11-01 23:30:57
87
转载 不用重训,不丢语义!UniLIP无损升级CLIP:一键通关重建、生成与编辑
得益于重建训练对原始能力的有效保持,UniLIP 实现了同规模最好的理解性能,并且超越了 Tar(7B)和 VILA-U(7B)等采用量化 CLIP 特征的更大模型。为解决 CLIP 特征因细节缺失导致的重建模糊问题,UniLIP 提出了一种创新的两阶段训练方案,旨在增强其像素级重建能力,同时不损害其卓越的语义理解力。这有效地补充了缺失的像素级信息。该架构同时利用大模型的隐变量和查询嵌入作为扩散模型输入,前者确保参考图像细节的完整保留,后者充分激发模型的推理能力,从而保证编辑任务的高度一致性和准确性。
2025-10-31 14:02:21
82
转载 北京内推 | AMD大模型压缩团队招聘LLM压缩算法/推理加速算法实习生
AMD 是高性能与自适应计算领域的领先企业,致力于提供优质的产品和服务,助力客户解决各种重大的挑战。如今,AMD 已经成长为一家现代化的全球性企业,凭借先进技术和诸多突破性行业创新,树立现代计算新标杆。2. 熟悉常见模型结构:如Transformer、Resnet等,了解大模型(如LLaMA、QWEN、GPT系列)的结构特点;聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。目前已有百度、阿里、腾讯、字节跳动等企业发布内推岗位,,助你先人一步投递,快人一步入职!
2025-10-31 14:02:21
68
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅