AI的进化速度正在“碾压”我们的认知!本周又是“神仙打架”,谷歌、Meta等纷纷亮剑:UIUC开始让LLM下场“炒股”,测试真实决策力;字节拿出Reg-DPO提升视频生成质量;腾讯CALM试图颠覆逐token生成范式;谷歌SRL则“调教”小模型解决SFT都搞不定的难题;而BAAI的Emu3.5更是直指多模态世界模型。
从CMU发布首个联合音素语音模型,到Meta为智能眼镜打造多模态RAG基准,再到机器人扩散模型的新应用,本周的每一篇论文都在重新定义边界。不想掉队?这篇硬核综述,你一篇都不能错过!
UIUC|LLM金融决策能力
论文:https://arxiv.org/pdf/2511.03628
大语言模型(LLMs)在静态基准测试中表现出色,但这些测试缺乏真实动态和不确定性,「无法评估在不确定性下的决策能力」。
本文作者提出**「LiveTradeBench,一个实时交易环境,用于评估LLM代理在真实且不断演变的市场中的表现」。该环境遵循三个设计原则:实时数据流、投资组合管理抽象以及多市场评估。在每一步中,代理观察价格、新闻和投资组合,然后输出平衡风险和回报的百分比分配。
对21个LLMs进行了50天的实时评估,结果显示高LMArena分数并不意味着更好的交易结果;「模型展现出不同的投资组合风格,反映出风险偏好和推理动态;一些LLMs能够有效利用实时信号来调整决策」**。这些发现揭示了静态评估与现实世界能力之间的差距,激励了测试连续决策和实时一致性的基准测试。
Lexsi| 提升表格数据学习
论文:https://arxiv.org/pdf/2511.02818
表格数据是现实世界应用中的主要数据格式,但开发有效的神经模型存在挑战,如特征类型异构、多尺度复杂交互等。「现有表格上下文学习架构存在单尺度特征处理、注意力机制随表格宽度二次增长、组件处理严格顺序化等问题」。
本文作者**「提出Orion-MSP架构,包含三个关键创新」**:多尺度处理捕捉层次特征交互;结合窗口、全局和随机模式的块稀疏注意力,实现可扩展效率和长程连接;类似Perceiver的记忆机制,保障组件间双向信息安全流动。在多种基准测试中,Orion-MSP匹配或超越现有最佳性能,并能有效扩展到高维表格,树立了高效表格上下文学习新标准。
字节|Reg-DPO:提升视频生成质量
论文:https://arxiv.org/pdf/2511.01450
直接偏好优化(DPO)是提升视频生成质量的有效方法,但现有方法多基于图像领域范式且模型规模小,难以应对视频任务的高数据成本、训练不稳定和内存消耗大等挑战。
本文作者**「提出GT-Pair」,利用真实视频作为正样本、模型生成视频作为负样本自动构建高质量偏好对,无需外部标注;还提出「Reg-DPO,将SFT损失作为正则项加入DPO目标」**,增强训练稳定性和生成保真度,并结合FSDP框架与多种内存优化技术,使训练容量提升近3倍。在I2V和T2V任务的多个数据集上,该方法均优于现有方法,视频生成效果更好。
综述|高效VLAs全面综述
论文:https://arxiv.org/pdf/2510.24795
视觉 - 语言 - 行动模型(VLAs)是具身智能的重要前沿,能将数字知识与物理世界交互连接,但其部署因底层大规模基础模型的计算和数据需求受限。
本文作者**「首次对高效VLAs进行综合综述,涵盖数据 - 模型 - 训练全过程」**,提出统一分类法,将技术分为高效模型设计、高效训练、高效数据收集三大核心支柱。通过批判性综述,为社区建立基础参考,总结代表性应用,阐述关键挑战,规划未来研究路线图。
腾讯|提出连续自回归模型CALM
论文:https://arxiv.org/pdf/2510.27688
大语言模型(LLMs)因逐个生成离散token的序列化过程,导致计算成本高,限制了模型的可扩展性和可访问性。
本文作者**「提出连续自回归语言模型(CALM),从离散的下一个token预测转变为连续的下一个向量预测」**。CALM利用高保真自编码器将K个token压缩成一个连续向量,可超过99.9%准确率重构原始token,将语言建模为连续向量序列,使生成步骤减少K倍,并开发了完整的无似然框架用于连续域的训练、评估和可控采样。
CALM显著改善了性能 - 计算权衡,在较低计算成本下达到强大离散基线性能,确立了下一个向量预测是实现超高效语言模型的强大且可扩展途径。
CMU|首个音素语音基础模型
论文:https://arxiv.org/pdf/2510.24992
语音处理领域虽在音素相关任务如自动语音识别(ASR)、音素识别(PR)、音素 - 字母转换(G2P)及字母 - 音素转换(P2G)等取得进展,但这些任务一直被孤立研究,各用特定架构和数据集,不利于通用语音处理模型发展。
本文作者提出POWSM(Phonetic Open Whisper - Style Speech Model),「首个能联合执行多种音素相关任务的统一框架,实现音频、文本(字母)和音素间无缝转换。」
该模型性能优于或媲美类似大小的专用PR模型(如Wav2Vec2Phoneme和ZIPA),同时支持G2P、P2G和ASR。此外,其训练数据、代码和模型均已公开。
Meta|多模态多轮全面RAG基准
论文:https://arxiv.org/pdf/2510.26160
可穿戴设备如智能眼镜改变了人们与环境交互方式,用户可询问视野中实体信息,但**「多模态检索增强生成(MM-RAG)任务缺乏全面基准,尤其针对可穿戴场景」。
本文作者构建了「CRAG-MM基准,包含6.5K单轮和2K多轮对话,涵盖13领域」**,有6.2K模拟可穿戴设备捕获的图像,设计了单源增强、多源增强和多轮对话三种任务及相应检索语料库和API。
简单RAG方法在CRAG-MM单轮和多轮问答真实性上分别仅达32%、43%,而行业先进方案类似(32%/45%),表明提升空间大,该基准还举办了KDD Cup 2025,吸引众多参与者,获胜方案显著提升基线性能。
Google|监督强化学习SRL
论文:https://arxiv.org/pdf/2510.25992
大语言模型(LLMs)在需要多步推理的问题上常遇困难,小规模开源模型用强化学习带可验证奖励(RLVR)时,因正确解难采样效果不佳,监督微调(SFT)又易因僵硬模仿过拟合长示范。
本文作者**「提出监督强化学习(SRL)框架,将问题解决转化为生成逻辑‘动作’序列」**,训练模型先生成内部推理独白再行动,基于模型动作与从SFT数据集提取专家动作的逐步相似性提供平滑奖励,即使全错也能提供丰富学习信号,引导灵活推理。
「SRL使小模型能学会此前SFT或RLVR学不会的难题」,先用SRL训练再用RLVR精修,整体性能最强,在推理基准测试外,对代理软件工程任务也有效泛化。
BAAI|多模态世界模型:Emu3.5
论文:https://arxiv.org/pdf/2510.26583
目前多模态模型在视觉与语言预测、生成等方面有待提升,且推理效率需优化。
本文作者提出**「Emu3.5,该模型以统一的下一个标记预测目标在包含超 10 万亿标记的视觉-语言交错数据语料库上端到端预训练」**,还通过大规模强化学习进一步后训练提升多模态推理与生成能力,为提高推理效率,提出离散扩散适应(DiDA)方法,将逐标记解码转化为双向并行预测。
Emu3.5 在长视觉 - 语言生成、任意到图像生成等任务上表现出色,与 Gemini 2.5Flash Image(Nano Banana)等模型相比,在图像生成与编辑任务上性能相当,在交错生成任务上结果更优。
KAIST|扩散模型在机器人中的应用
论文:https://arxiv.org/pdf/2510.15510
预训练视觉表示虽推动了模仿学习发展,但其在策略学习中保持冻结,常为任务无关的。
本文作者 「探索利用预训练文本到图像扩散模型,通过条件设置获取任务适应性视觉表示用于机器人控制,且不微调模型本身」。鉴于直接应用文本条件效果不佳,提出ORCA,引入可学习任务提示以适应控制环境,以及视觉提示捕捉帧特定细节。该方法在多种机器人控制基准测试中达到最佳性能,显著超越以往方法。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:

2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

被折叠的 条评论
为什么被折叠?



