- 博客(6029)
- 收藏
- 关注
原创 ICML 2026投稿开启:先别急着提交,详解史上最严的“连坐拒稿”机制
如果作者 A 提交了论文 X 和论文 Y,且两篇文章内容高度重叠却互不引用(试图蒙混过关),不仅 X 和 Y 会被拒,作者 A 参与的论文 Z(可能是一篇高质量的独立工作)也会面临被拒风险。比如你设计了一个新的 Attention 模块,第一篇论文用它跑了 NLP 任务,第二篇论文只换了个数据集跑 CV 任务,核心创新点几乎一样,且两篇文章互不引用。对于刚结束前两天 ACL 投稿的同学来说,现在或许正准备一鼓作气,将手头剩下的工作,或者没赶上 ACL 的存货转投 ICML。
2026-01-09 12:17:18
390
转载 谁说思维链越长越好?Yuan3.0 Flash开源:砍掉70%无效token,重构推理范式
如果后续步骤既没有新增证据或约束,只是重复已有逻辑,或是在缺乏信息的情况下反复推翻已验证结论,这类超出必要次数的反思则被标记为低价值(负价值)行为——通过这种方式,引导模型学会在合理的反思次数内完成答案验证。这种机制的关键意义在于,它并不是简单地限制输出长度,而是从根本上改变了模型对“好推理”的理解标准——高质量推理不等于更长的推理,而等于恰到好处的推理。Yuan3.0 Flash 的技术实践表明:当大模型已经具备足够的推理能力后,真正稀缺的,不再是“让它想得更多”,而是“让它知道什么时候该停”。
2026-01-08 13:11:01
9
原创 AAAI 2026 | 别再盲目采样了!OptScale实现概率最优停止,token消耗减半
总有一些你不认识的人,知道你想知道的东西。将 inference-time scaling 从“固定 N 的经验规则”, 转化为“带置信度保证的概率最优停止问题”。的组合下,系统性地对比了 OptScale 与当前主流 Inference-time Scaling 方法。在部分任务上,OptScale 达到的准确率,是 Best-of-N 即便无限扩大 N 也难以达到的。Inference-time Scaling 的瓶颈并不在“采样次数不够”,而在“采样何时停止”。
2026-01-08 13:11:01
673
原创 CVPR 2025 | Mamba与局部注意力首次碰撞,SegMAN刷新语义分割SOTA
LASS 模块突破传统 Transformer 的二次方复杂度限制,通过 Natten 的局部窗口约束与 SS2D 的状态空间压缩策略,在保持线性计算复杂度的同时,实现多尺度特征的协同优化。结合了主干网络与解码器,我们提出一种新的语义分割模型 SegMAN,在三大语义分割基准(ADE20K,Cityscapes,COCO-Stuff-164k)测试中展现出了卓越的性能。SegMAN 通过编码-解码协同优化,在全局建模、局部感知与多尺度融合三个关键维度实现突破,为实时高精度语义分割任务提供了新的技术路径。
2026-01-07 14:05:08
561
原创 告别Scaling暴力美学:正如Ilya预言,算力不再是唯一的答案
前方的路或许不再像过去十年那样笔直,但正如 Alan Turing 所说:“尽管眼前的路只能看清一点点,但那里已有足够多的事,值得我们全力以赴。未来的赢家,不再仅仅是那些拥有最大集群的人,而是那些能更聪明地使用算力、更深刻地理解数据、以及能让模型在推理时展现出真正逻辑能力的人。因为比赛的规则变了,我们不再只是看着 loss 曲线发呆的炼丹师,而是重新变回了需要精巧设计算法、深刻理解数据的计算机科学家。但 Hooker 的数据和 Ilya 的转向都在告诉我们,那个依靠简单粗暴就能获胜的枯燥时代,已经结束了。
2026-01-07 14:05:08
653
原创 150k数据反超Qwen-2509!支持10图输入,MICo-150k刷新多图融合SOTA
我们收集了高质量人像写真,并使用 nano-banana 将图中的人物、衣物、场景等信息 decompose 出来,经过人工质量验证后,再 recompose 回去,构成最接近真实世界分布的 De & Re(BAGEL、Qwen-Image、BLIP-3o 等模型本身并没有在多图融合任务上训练过,但是将多张图片 token concat 到一起直接输入,模型本身涌现出一定的。随着图像生成模型的迅速发展,越来越多的 condition 被加入到生成过程中,开源模型和闭源模型的差距也不断缩小。
2026-01-06 14:02:46
908
原创 别让 loss.backward() 成为黑盒:手推Transformer全链路梯度(含LoRA)
但通过重走这条反向传播之路,我们得以窥见 Transformer 设计中许多隐秘的细节——从 Softmax 带来的梯度守恒,到 LN 与 BN 的对偶关系,再到 LoRA 低秩分解的数学本质。这个复杂的公式揭示了为何 LN 能够稳定训练,它通过减去均值和除以标准差的梯度项(公式中的求和项),在反向传播中动态地去除了激活值幅度的剧烈波动。这篇论文并非简单的公式堆砌,而是采用了一套无索引(index-free)的向量化符号体系,对 GPT-2 风格的 Transformer 进行了。
2026-01-06 14:02:46
1000
原创 Vibe Researching来了!斯坦福教授实测:1小时自动复现PNAS论文
但一旦涉及需要购买或存储在离线环境中的私有数据(Proprietary Data),如详细的选民档案(Voter File),目前的 AI Agent 仍无法触达。在扩展分析中,AI 发现犹他州(UT)和华盛顿州(WA)在 2018 年后已经没有任何新的政策变异(Variation),所有的扩展效应其实都只来自加州。作者在复盘中非常诚恳地列出了当前的局限性,这对于试图复制该模式的研究者至关重要。为了探究这一效率跃升背后的机制,我们复盘了他的 GitHub 仓库,发现支撑它的并不是单纯的模型算力,而是。
2026-01-05 14:35:16
713
原创 大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架
其中,查询–LLM 边是整个路由决策的关键,边的特征来自用户的历史选择结果(如性能–成本加权权衡数值,或由 LLM-as-a-Judge 选出的最佳回答),它直接对应了在某一次交互中,这个查询最终由哪个 LLM 执行。如上图所示,考虑到模拟用户不能完全模拟真实用户行为分布,研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验,PersonalizedRouter 在真实用户偏好下的仍具强大的能力。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。
2026-01-05 14:35:16
681
转载 爆肝96页!NUS联合哈佛发布医疗智能体重磅综述,28万字+300篇文献梳理
对医疗智能体进行了全面梳理,涵盖其定义与分类框架,核心技术与架构,应用场景与部署,核心挑战与前景,并开源了论文链接和 Github 项目。:需要制定有效的评估标准与程序,以保证医疗代理的性能和效果符合临床需求,从而提升其在医疗环境中的可接受性和有效性。在现代医疗环境中,面对日益复杂的患者需求和不断增长的工作负担,医疗智能体的引入成为提升医疗服务质量和效率的关键。,该功能聚焦于优化医疗工作流、自动化文档生成及医疗文本的校正和简化,减少医疗资源浪费,提高文档的准确性和可读性。
2026-01-04 14:10:52
30
原创 AAAI 2026 | 格式即先验:量化和分析大语言模型在异构数据中的偏见
随着大语言模型(Large Language Models,LLMs)在问答、推理和决策支持等任务中的广泛应用,越来越多的系统开始引入外部知识以缓解幻觉问题并提升推理能力。总有一些你不认识的人,知道你想知道的东西。:针对同一事实,提供两条相互冲突的主张,每条主张均由一种不同格式的数据作为证据支持。”这一问题,即:当语义等价的信息以不同格式呈现时,LLMs 是否会更倾向于信任或采纳某些格式,而忽略其他格式。则在模型只支持单一观点时,刻画其对不同格式证据的偏向程度,用于衡量格式偏见的“方向性”。
2026-01-03 20:09:37
800
原创 2026年的大模型范式变了:告别KV Cache爆炸,递归语言模型才是未来?
以 MIT 的 RLM 和 Prime Intellect 的工程实践为代表,利用外部环境(代码解释器)和显式的子任务拆解,突破 Context Window 的物理限制。虽然这一数字略高于简单的摘要模型($0.57),但它换来了从 0 分到 91 分的巨大性能飞跃,且远低于让模型硬读全文的昂贵代价(理论上需 $2.00+)。MIT 的研究者指出,模型的有效上下文长度严重依赖于任务的。以 Samsung 的 TRM 为代表,利用内部状态的循环迭代,在不增加参数量的情况下突破推理深度的限制。
2026-01-03 20:09:37
1039
转载 重构通用异常检测新范式:Dinomaly2实现跨模态、跨任务的无缝统一
不同的 UAD 场景需要完全不同的方法架构—— 2D 检测、多类别建模,多视角检测、RGB-3D 融合、少样本检测等,都需要专门设计的框架,给实际部署带来巨大负担。这个简单的减法操作有效地将每张图像的特征空间的原点移动到不同类别的 [CLS] token 的位置,使得来自不同类别的 patch 特征被映射到不同的参考坐标系。其中 m 是随机二值掩码。:虽然领域正从“单类专用模型”向“多类统一模型”演进,但多类别模型的性能显著低于 one-for-one 训练的模型,限制了多类别方法的实用性。
2026-01-01 20:18:51
43
原创 优化即几何,几何即推理:用数学终结Transformer的黑盒时代
推理始于坐标系的建立。第 0 层的 Key 向量形成了一个 近似正交的基底 (Orthogonal Basis),将所有可能的假设映射到独立的几何子空间中。针对每一个具体序列,Transformer 的熵值(实线)能够精确追踪理论后验(虚线)的锯齿状变化,证明模型在进行逐 Token 的实时推理。Attention 机制并非某种近似的特征提取器,而是在梯度下降的驱动下,自发演化出的一套精确的贝叶斯推理机。从 Layer 0(左)的发散关注到 Layer 5(右)的高度聚焦,展示了模型对错误假设的逐步剔除。
2026-01-01 20:18:51
771
原创 8B模型超越Gemini 2.5 Flash!南大&腾讯用TimeLens重塑大模型视频时间定位
在 VTG 任务中,什么样的训练范式是最优的?研究团队首先构建了严谨的人工检验和标注流水线,对现有的主流 VTG 基准(Charades-STA,ActivityNet Captions,QVHighlights)进行了严格的“体检”。随着相关领域的发展,多模态大模型(MLLMs)在理解视频中“发生了什么(What)”方面表现出色,但当被问及“何时发生(When)”时,往往表现不佳。在高质量评测和训练数据的基础上,TimeLens 对算法设计的核心组件进行了深入探索,得出了一系列具有价值的结论。
2025-12-31 12:36:43
938
原创 Attention Is Not What You Need? 用格拉斯曼流形重构序列建模的几何美学
但这毕竟是一个完全抛弃了 Attention 的初代原型,随着层数加深(从6层到12层),差距略有缩小,证明了堆叠几何流确实能近似复杂的全局交互。但作者坦承,由于当前实现依赖于 PyTorch 的基础操作(尤其是普吕克坐标计算涉及大量切片和重组),缺乏像 FlashAttention 那样极致优化的 CUDA 内核,其。由于自由度过高,我们根本找不到一组简洁的数学不变量来描述模型的全局行为。我们在狂卷参数量和上下文长度的同时,是否应该停下来思考一下,智能的本质是暴力统计,还是流形上的优雅演化?
2025-12-31 12:36:43
971
原创 华为重构Transformer FFN:首创宽深自适应复用,零增参超越MoE
可视化的词云分析也证实,动词和相似实词(如 remove,cut 和 cup)倾向于使用更多循环,而高频通用词(如 make,use)则倾向于使用更少的循环。总有一些你不认识的人,知道你想知道的东西。进一步地,研究团队在 ARC-c 数据集上可视化了不同模型推理所采用的实际循环次数,可以看到模型的不同层确实学习到了不同的循环次数。它打破了“模型越强,参数越大”的刻板印象,证明了通过精细化的。它通过在固定参数预算下,动态分配“宽度”和“深度”计算资源,实现了在不增加参数量的情况下,显著提升模型的精度。
2025-12-30 14:09:14
694
原创 Mamba还是Transformer?Bengio给出第三选择:Phalanx完美替代局部注意力
基于此,研究团队提出,如果将递归视野限制在一个基于硬件特性的窗口内,利用矩阵乘法的高算术强度(Arithmetic Intensity)来替代带宽受限的扫描操作,是否能在不损失精度的前提下大幅提升训练吞吐?为了加速这一过程,此前的主流方案通常采用并行前缀和扫描(Parallel Scan),如 Kogge-Stone 或 Brent-Kung 算法。的提出,证明了通过合理的数学近似(截断递归)和精细的工程实现(Block Two-Pass),我们可以在混合架构中找到效率与性能的最佳平衡点。
2025-12-30 14:09:14
811
转载 中科院 × 北体大提出SportsGPT,打造懂专业、会指导的AI教练
在特征融合时,系统通过特定的加权策略,特意强化了速度特征在动作相位表征中的比重,确保模型能敏锐感知动作的快慢变化。我该怎么练才能提高?这种“确定性规则计算 + 概率性逻辑推理”的混合架构,从根本上杜绝了端到端大模型因直接处理原始数据而产生的“幻觉”,确保了给出的每一个诊断结果既有坚实的数据支撑,又具备清晰的可解释性。实验结果显示,虽然在移除 RAG 模块后,得益于 KISMAM 的保留,模型的诊断准确性仍维持在 3.65 的较高水平,但方案的可行性却出现了灾难性滑坡,从 3.9 骤降至 1.65。
2025-12-29 19:52:25
71
转载 比Mathpix更强大的公式识别神器,全免费!
我打开了 PaddleOCR的官网(www.paddleocr.com),界面设计简洁明了,支持文件上传与模型选择,默认模型为 PaddleOCR-VL。我还是第一次知道 PaddleOCR 有官网了,之前只知道是 GitHub 一个挺火的开源项目,用的人很多,但是没办法直接在线体验模型效果。,在公式识别领域表现极其优秀,甚至超过国内外那些闭源的顶级大模型,比如 Gemini 3.0、GPT 5.2 等。更令人惊喜的是,这个模型体积很小,完全开源,支持本地部署,非常适合有特殊需求的用户。
2025-12-29 19:52:25
71
原创 加速流式视频理解!上交团队实现ViT编码与LLM预填充双重加速
其中,如图 1 所示,ViT 时长在视频理解任务中占据大量时间,而现有 token 压缩方法(如 VisionZip、VidCom²)仅聚焦于上下文压缩,仅能实现 LLM 预填充加速,忽略了视频理解任务中 ViT 编码效率低下的问题。:在流式输入中,相邻帧往往高度相似(如背景静止),但传统的 Vision Transformer(ViT)依然会对每一帧进行完整的计算,造成巨大的资源浪费。表 1-3 的实验结果表明,STC 框架在流式与离线视频理解任务上均能大幅提升效率的同时,几乎完美保留了模型性能。
2025-12-27 18:07:42
950
原创 RoPE真的完美吗?LSTM之父团队新作:极坐标解耦,零样本无限外推
在长文本能力的评估上,作者在 OpenWebText 上预训练了上下文长度为 1024 的模型,并在 PG-19 数据集上测试了最长达 10240 token 的序列表现。这一结果表明,RoPE 的耦合特性确实限制了其学习精确相对位置规则的能力,而 PoPE 则能较好地掌握这一逻辑。这篇论文通过重新审视 RoPE 的数学性质,指出了其在内容与位置解耦上的不足,并提出了 PoPE 这一修正方案。在未进行长文本微调的情况下,PoPE 在数倍于训练长度的序列上保持了稳定的困惑度(PPL),这一结果值得关注。
2025-12-27 18:07:42
953
原创 不仅是RAG!NUS、人大等联合发布:102页综述揭秘Agent Memory机制
记忆从“检索中心”走向“生成中心”,从“人工规则”走向“自动管理”,从“启发式流水线”走向“强化学习驱动的端到端控制”,综述进一步把这些迁移与多模态、多智能体协作、可信安全等议题交织起来,指出未来一代记忆架构可能被哪些关键挑战塑形。这类经验记忆更像“方法论”,能显著降低复杂任务中的搜索成本。下一代记忆系统的竞争点,不会只在“检索更准”或“存得更多”,而在于能否把记忆做成 Agent 的核心能力单元——可生成、可自治管理、可用强化学习等信号持续优化,并能在多模态、多智能体与可信治理的现实约束下稳定运行。
2025-12-26 13:06:11
823
转载 别再怪SFT了!清华揪出0.1%幻觉神经元:大模型胡编的尽头,其实是过度顺从
在此基础上,团队收集了模型产生和未产生幻觉的等量回复,将每个神经元在这些回复的生成过程中的贡献值作为特征,构建了一个带有强正则化约束的稀疏预测模型,用以区分幻觉与非幻觉输出,稀疏性约束的引入,使模型能够在大量候选神经元中,自动筛选出最具判别力的最小神经元子集。为此,团队将指令微调模型中识别出的 H-Neurons 映射回其对应的预训练模型,并在不进行任何重新训练或参数更新的情况下,直接使用之前的稀疏预测模型,评估这些神经元在预训练模型中的幻觉预测能力。幻觉在模型内部是如何产生的?
2025-12-26 13:06:11
114
原创 用户行为预测的“专注力革命”:FAIR让生成式推荐不再分心
近年来,生成式推荐崭露头角。它借鉴了自然语言处理的成功经验,将用户的历史点击、购买记录转换成一段由离散“语义 ID” 组成的行为句子,然后让强大的 Transformer 模型像预测下一个词那样,自回归地预测你下一个可能感兴趣的商品。乍一看,这仿佛把用户兴趣全都“拆解”了,但问题也随之而来了:序列被无限拉长,噪声和无关交互混进来,模型的注意力容易分散——关键的兴趣点反而被掩盖。这一突破得益于其创新的生成框架,能有效过滤注意力噪声,精准聚焦用户与物品间的真实关联,显著提升了模型的判别力与鲁棒性。
2025-12-24 12:06:19
727
原创 告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗
如果把这些模型从试卷里拽出来,扔进一个没有标准答案、规则会变、对手也会变的动态环境,它们不仅要能“说”,还得会“做”,甚至得写出代码来相互博弈,它们还能活过第一集吗?在这里,模型用代码当武器,在对局里赢,靠复盘对手代码继续进化。不同于枯燥的胜率数字,资金曲线的波动直接暴露了模型的决策倾向:有的极其激进,曲线大起大落。对于关注落地成本的企业而言,GPT-5 这种“少吃草、多跑路”的模型,展现了极致的效能比。面对这些训练数据中极为罕见的规则,AI 无法依赖记忆,必须现场推理,写出鲁棒的逻辑代码。
2025-12-24 12:06:19
763
转载 视频衍生数据集来了!港科大×美团开源OpenSubject,专攻复杂场景生成与编辑
主体驱动图像生成旨在在给定文本和参考图片的条件下,生成既“像这个人 / 物体”,又符合新场景、新动作描述的图像,是个性化内容创作、虚拟人物复刻、IP 角色运营、游戏与影视制作等应用的基础能力。为系统评估主体驱动模型的能力,团队同步提出 OSBench 统一基准,涵盖单主体 / 多主体生成与编辑四类子任务,并基于 VLM 评分体系,对提示遵从度、身份保持与编辑质量进行量化评估。编辑任务:基于框引导 inpainting,将原图目标区域抹去,再由模型根据参考主体“填回去”,构造主体替换样本。
2025-12-23 14:31:04
47
原创 NeurIPS 2025 | 从“唯Key论”到非对称解耦:利用KV差异重塑长文本推理
针对 Value 的局部异质特性,AsymKV 提出无信息丢失的 Value 合并方案,它揭示并利用了注意力计算中的一个优雅数学性质:当两个 Key 被合并后,只需将它们对应的 Value 直接相加,并引入一个记录“合并基数”的向量 C,即可在数学上严格等价于原始的注意力输出。现有的长文本 KV Cache 压缩方法普遍受限于“以 Key 为中心”的工作范式,即隐含地假设 Key 的分布特征完全等同于 Value 的分布特征,从而依据 Key 的状态来裁决 Value 的去留。
2025-12-23 14:31:04
477
转载 MiniMax海螺首次开源VTP,Tokenizer才是视频生成Scaling的新主角
而对于 VTP 来说,我们把整个下游生成模型的训练和评估看作一个黑盒评估系统、把 tokenizer 作为 scaling 的主角,会惊喜的发现当我们用更大的参数量、投入更多的训练资源、利用更多的数据,下游的黑盒系统会有持续的提升。过往的通用表征学习方法,是在持续优化人类视觉最关注的一些任务,这其实是一种非常好的性质。总而言之,tokenizer 作为生成系统中的重要组件,其拓展空间是非常广阔的,我们希望通过 VA-VAE、VTP 等系列工作,将一些不同的视角展现给大家,也期待业界内有新的方法和思想涌现。
2025-12-22 13:59:01
60
原创 Claude二次创业实录:明面上买PS5搞破产,背地里差点倒卖洋葱去坐牢
看着 Claude 这种“买斗鱼、塞 PS5、倒卖洋葱、半夜修仙”的蠢萌样,我的感觉只有一个,现在离 AI 抢走我们饭碗统治世界还早着呢。他说,他们做这个实验,就是想在真的把公司交给 AI 管理之前,先让它在可控范围里把几千美元亏光,总比以后把更大的东西亏光强。但你细看就会发现,盈利不是靠 Claude 突然开悟,而是靠人类给它加了无数脚手架——强制查价、强制确认法律风险、强制走流程、强制审批。但这恰恰是做生意的死穴,因为经营需要的往往是坏一点的老板,该拒绝就得拒绝,该不近人情就得不近人情。
2025-12-22 13:59:01
487
原创 会走会聊还会求抱抱!迪士尼造出“真”雪宝,把热力学公式写进强化学习
如上图所示,Path Frame 是一个随行进方向移动的虚拟坐标系,它让机器人能够将动画师制作的那些非物理的 Reference Motion(参考动作)映射到物理世界中。团队的解法非常硬核,硕大的头部意味着极高的重心,纤细的树枝手臂无法容纳电机,分离式的双脚雪球更是把腿部机构的活动空间压缩到了极致。论文的对比实验表明,如果去掉这个步态约束,虽然机器人也能走稳,但看起来就会变得生硬、机械,失去了角色的灵魂。这不仅是一个有趣的玩具,更是一个关于如何在极端受限的硬件条件下,利用算法把硬件性能榨干的经典案例。
2025-12-21 12:31:51
927
原创 身份保真比肩Nano Banana!ContextGen统一上下文,实现布局与身份协同控制
该机制在模型的中间层运行,通过隔离式的注意力掩码,强制待生成图像中某个实例的区域与其对应的参考图像之间建立连接,从而可靠地将高保真度的身份细节注入给每个生成的实例。:现有的主体参考驱动(Subject-Driven)的方法已经非常流行,但当需要生成的主体数量增加时,模型难以维持精细的身份细节,时常出现身份混淆、特征丢失等现象。在论文中,ReLER 团队进一步指出,如何在保持身份一致性的同时,更加智能地理解和协调用户的文本意图与给定的多模态参考,仍是未来定制化图像生成的重要研究方向。
2025-12-21 12:31:51
892
原创 LLM符号推理全景综述:迈向可验证、可解释、更可信的大模型推理范式
综述对近两年迅速增长的成果进行了系统整理,将研究活动划分为七个主要方向,包括自然语言的逻辑形式化、基于规则的推理、定理证明、神经与符号的分层融合、基于规划的多步骤决策、程序生成式推理,以及面向结构化数据的逻辑计算。此外,形式化步骤还承担着“构建可验证结构”的职责,使推理内容从自由文本转变为可操作的逻辑对象,构成后续定理证明、规则推理和规划系统的输入基础。整个机制构成一个“生成—验证—迭代”的闭环,使推理行为满足严格的逻辑有效性要求,同时提升模型在数学、几何与复杂约束推理中的可靠性。
2025-12-20 14:11:09
649
原创 OpenAI官方论文“泄密”GPT-5:RL到底有没有教坏CoT?万字深度实测
如上图所示,在 Sandbagging(故意装傻)案例中,红色区域展示了不可监控的 CoT:模型选错了答案,且 CoT 在一本正经地编造错误理由。而右图显示,后期单位 Token 的监控性下降,说明模型学会了更高级的隐藏策略。从上图可以看到,在 OpenAI o3 和 GPT-5 Codex Max 的正常训练流程中,随着 RL 步数的增加,CoT 的可监控性(这意味着在部署高风险 Agent 时,为了安全合规,我们可能需要支付这笔监控税,忍受更高的延迟或成本,以换取更透明的推理过程。
2025-12-20 14:11:09
644
原创 AAAI 2026 | 当知识图谱变成乱码,LLM还能推理吗?ARoG破解RAG隐私困境
例如,一个与“时区”、“包含于”、“人口”等关系相邻的实体,可被抽象为“地理位置”。实验结果表明,随着隐私保护程度加深,ToG 的推理准确性逐渐下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其显著的隐私鲁棒性。(严格隐私保护的子集)两种设置下,ARoG 在所有数据集上均达到最好的性能,显著优于现有的 RAG 方法,以及隐私保护的语义解析(SP)方法。设置时,传统 RAG 方法性能急剧下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其在隐私保护场景下的卓越鲁棒性。
2025-12-19 14:21:22
751
原创 拒绝蜡像感!美团开源LongCat-Video-Avatar:5分钟超长续航,虚拟人终于会呼吸了
龙猫团队在研发中对参考帧的位置做了详尽实验。这不仅是一个能原生支持音文生视频(AT2V)、音图文生视频(ATI2V)以及视频续写等多种生成模式的统一架构,更重要的是,它在虚拟人的动作拟真度和超长视频稳定性上实现了明显的突破。LongCat-Video-Avatar 不仅给开发者们提供了一个稳、准、活的生产力工具 ,更重要的是,它通过对底层逻辑的微调,让虚拟人开始拥有了真人的那种灵动感。录音棚里的这场对白戏,不仅是口型卡得准,眼神交流和动作回馈的同步感也很有真人的互动氛围,完全没有各演各的割裂感。
2025-12-19 14:21:22
1131
原创 RK-∞降维打击Mamba?线性注意力真的有“免费午餐”!
这意味着线性注意力第一次不再以“近似”为代价:在不增加任何参数的情况下,实现了稳定性与性能的同步提升,并在多个基准上超越了 DeltaNet 等主流方案。它向我们证明了,线性注意力长期以来的性能瓶颈并非由于架构本身的基因缺陷,而是源于我们在数值实现上的粗糙妥协。通过利用 Rank-1 特性绕过复杂的数值积分,EFLA 在不增加计算成本的前提下,实现了从一阶欧拉近似到无限阶解析解的跨越。更关键的是,这项工作证明,在保持线性时间复杂度不变的前提下,通过引入无限阶 Runge–Kutta 级别的解析解,可以。
2025-12-18 17:38:10
743
原创 为什么你的多任务模型总在“打架”?解决融合冲突的终极方案来了
随着多任务大模型的广泛应用,未来的模型融合将不再局限于对同质任务进行整合,而会采取更加动态和灵活的机制,能够根据任务的不同结构、特征分布以及具体的应用场景进行自适应的融合。当任务差异巨大时,不同的任务向量可能会互相冲突和抵消,导致融合后的模型性能不升反降。如图 1(b),如果任务 A 的向量幅度明显大于任务 B,那么融合后的更新会被“强任务”主导,小尺度任务的知识更容易被掩盖,导致性能下降。LOT Merging:在识别出的冲突空间内,按奇异值向量的重要性,对融合权重进行动态调整,达到自适应的效果。
2025-12-18 17:38:10
770
转载 空间智能领域的ImageNet来了?如视开源全球最大室内3D数据集
一直以来,空间智能领域的研究与应用面临着一个卡脖子难题:高质量的空间数据始终存在巨大缺口。而此次开放的 Realsee3D三维数据集,正是从这一海量数据库中精选出的高质量样本。Realsee3D 是一个大规模多视角RGB-D数据集,旨在推动室内三维感知、重建与场景理解领域的研究。如果说 ImageNet 的出现开启了计算机视觉的黄金时代,那么在空间智能领域,我们也终于等来了一个填补空白的里程碑式开源项目。,旨在为空间智能领域的研究者、开发者提供高质量数据基础,加速整个行业的技术迭代与应用落地。
2025-12-17 13:38:23
62
原创 继何恺明DyT后,LayerNorm再遭暴击!简单erf函数竟成Transformer新宠
在 DiT-XL/2 模型上,Derf 的 FID 分数(越低越好)降到了 18.92,显著优于 LN (19.94) 和 DyT (20.83)。Derf 用一个无需统计量的 erf 函数,不仅干掉了复杂的 LayerNorm,更用实打实的性能提升告诉我们:在深度学习中,更简单的设计,往往意味着更强的泛化能力。Derf 的表现不仅是替代,而是实打实的超越。模型在评估模式下的训练集 Loss 对比:Derf 的训练 Loss 高于归一化层,表明其优势源于更强的泛化而非拟合。
2025-12-17 13:38:23
568
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅