东临碣石82-优快云博客

原创【AI论文】探索基于人类反馈的强化学习中的数据扩展趋势与影响

初始监督微调：首先，在预训练语言模型的基础上，使用人类编写的演示数据进行监督微调，使模型具备基本的指令跟随能力。奖励模型训练：构建三种类型的奖励模型：Bradley-Terry奖励模型（BT模型）、生成式奖励模型（GenRM）和推理任务验证器（RTV）。BT模型通过成对比较数据学习奖励函数，优化参数以推断人类偏好下的潜在奖励分数。GenRM则通过学习人类对不同输出偏好的成对比较来直接预测比较分数。RTV则针对特定任务构建一系列验证器，如编程任务的代码沙盒，以实时执行和评估代码输出。强化学习优化。

2025-04-01 18:00:00 438

原创【AI论文】AdaptiVocab：通过轻量级词汇适配提升大语言模型在特定领域的效率

大型语言模型（LLMs）作为通用模型展现出了令人印象深刻的通用性。然而，其广泛的适用性带来了高昂的计算开销，尤其是在自回归解码过程中，每一步都需要进行一次前向传播。在特定领域设置中，通用能力并非必需，且可以牺牲通用能力来换取效率。在本研究中，我们从全新的视角审视领域适配问题，通过调整词汇以适应特定关注领域，从而降低延迟和计算成本。我们引入了AdaptiVocab，这是一种端到端的词汇适配方法，旨在提高低资源领域中的大型语言模型效率。

2025-04-01 12:00:00 649

原创【AI论文】FinAudio：金融应用中音频大语言模型的基准测试

短金融音频的自动语音识别：该任务旨在评估音频大语言模型在转录短金融音频片段（如金融新闻片段、财报电话会议中的简短问答等）时的准确性。任务输入为音频片段和转录指令，输出为转录文本，评估指标为词错率（WER）。长金融音频的自动语音识别：该任务关注音频大语言模型在转录长金融音频记录（如完整的财报电话会议、投资者演示等）时的表现。任务输入为长音频文件和转录指令，输出为完整的转录文本。由于长音频数据的复杂性，任务中采用分段转录和合并输出的策略，评估指标同样为词错率。长金融音频的摘要生成。

2025-04-01 07:00:00 1172

原创【AI论文】ChatAnyone：基于分层运动扩散模型的风格化实时肖像视频生成

我们的研究方法主要包括两个阶段：第一阶段是运动表示学习，通过高效的分层运动扩散模型将音频输入转换为运动表示；第二阶段是视频生成，基于第一阶段生成的运动表示和角色图像，合成高质量的肖像视频。

2025-03-31 18:00:00 1335

原创【AI论文】Embodied-Reasoner: 协同视觉搜索、推理与动作以执行具身交互式任务

近期，深度思考模型在数学和编程任务中展现出了卓越的推理能力。然而，它们在具身领域中的有效性，即通过图像与动作交织的轨迹与环境进行持续交互的任务，仍有待深入探索。我们提出了Embodied Reasoner模型，该模型将O1风格的推理扩展到交互式具身搜索任务中。与主要依赖逻辑推导的数学推理不同，具身场景需要空间理解、时序推理以及基于交互历史的持续自我反思。

2025-03-31 12:00:00 1061

原创【AI论文】ReaRAG：迭代检索增强生成中知识引导的推理提升大型推理模型的准确性

大型推理模型（LRMs）展现出卓越的推理能力，但主要依赖于参数化知识，这限制了其事实准确性。尽管近期的研究为基于强化学习（RL）的LRMs赋予了检索能力，但这些模型存在过度思考的问题，且在推理过程中缺乏鲁棒性，从而降低了它们在问答（QA）任务中的有效性。为解决这一问题，我们提出了ReaRAG，这是一种增强事实准确性的推理模型，能够在不过度迭代的情况下探索多样化的查询。我们的解决方案包括一个具有推理链长度上限的新型数据构建框架。

2025-03-31 07:00:00 649

原创【AI论文】LeX-Art：通过可扩展的高质量数据合成重新思考文本生成

我们推出LeX-Art，这是一套用于高质量文本-图像合成的综合解决方案，旨在系统性地弥合提示表达力与文本渲染保真度之间的差距。我们的方法遵循以数据为中心的理念，基于Deepseek-R1构建了一个高质量数据合成管道，以整理出LeX-10K数据集，该数据集包含10,000张高分辨率且经过美学优化的1024x1024图像。除了数据集构建之外，我们还开发了LeX-Enhancer这一强大的提示增强模型，并训练了两个文本到图像的模型，即LeX-FLUX和LeX-Lumina，实现了业界领先的文本渲染性能。

2025-03-30 19:03:55 813

原创【AI论文】VBench-2.0：推动视频生成基准套件发展，聚焦内在真实性评估

视频生成技术已取得显著进展，从生成不真实的输出，发展到能够制作出视觉上令人信服且时间连贯的视频。为了评估这些视频生成模型，已经开发了诸如VBench等基准测试工具来评估其真实性，衡量因素包括每帧的美学效果、时间一致性以及对基本提示的遵循程度。然而，这些方面主要体现的是表面真实性，即关注视频在视觉上是否令人信服，而非其是否遵循现实世界的原则。尽管最近的模型在这些指标上表现越来越好，但它们仍然难以生成不仅视觉上合理而且从根本上符合现实的视频。

2025-03-30 16:25:11 910

原创【AI论文】大语言模型智能体：方法论、应用与挑战综述

智能代理的时代已经来临，这得益于大语言模型领域的革命性进展。大语言模型（LLM）代理具备目标驱动的行为和动态适应能力，有望成为通向人工通用智能的关键路径。本综述通过以方法论为中心的分类体系，系统地剖析了大语言模型代理系统，将架构基础、协作机制与演化路径相联系。我们揭示了代理设计原则与其在复杂环境中涌现行为之间的基本联系，从而整合了分散的研究线索。我们的工作提供了一个统一的架构视角，审视了代理的构建方式、协作模式以及随时间的演化过程，同时探讨了评估方法、工具应用、实际挑战以及多样化的应用领域。

2025-03-30 07:00:00 1645

原创【AI论文】挑战推理的边界：大型语言模型的数学基准测试

近年来，大型推理模型的迅猛发展导致现有用于评估数学推理能力的基准测试趋于饱和，这凸显出迫切需要更具挑战性和严谨性的评估框架。为填补这一空白，我们推出了OlymMATH，这是一项全新的奥林匹克级数学基准测试，旨在严格检验大型语言模型（LLMs）的复杂推理能力。OlymMATH精心挑选了200道题目，每道题目均经过人工验证，并提供中英文双语版本。这些题目被系统地划分为两个难度等级：（1）美国数学邀请赛（AIME）级别题目（较易），用于确立数学推理评估的基准线；

2025-03-29 18:00:00 1192

原创【AI论文】UI-R1: 通过强化学习增强GUI代理的动作预测

近期，DeepSeek-R1通过基于规则的奖励强化学习（RL）展示了大型语言模型（LLMs）中推理能力的涌现。基于这一理念，我们首次探索了基于规则的强化学习如何增强多模态大型语言模型（MLLMs）在图形用户界面（GUI）动作预测任务中的推理能力。为此，我们精心整理了一个规模虽小但质量极高的数据集，包含136项具有挑战性的任务，涵盖了移动设备上的五种常见动作类型。同时，我们还引入了一种统一的基于规则的动作奖励机制，使得模型能够通过基于策略的算法（如群组相对策略优化，GRPO）进行优化。

2025-03-29 12:00:00 1005

原创【AI论文】Video-R1: Reinforcing Video Reasoning in MLLMs

受DeepSeek-R1通过基于规则的强化学习（RL）激发推理能力的成功启发，我们推出了Video-R1，这是首次尝试在多模态大语言模型（MLLMs）中系统地探索R1范式，以激发视频推理能力。然而，直接将带有GRPO算法的强化学习训练应用于视频推理面临两大主要挑战：（i）视频推理缺乏时序建模；（ii）高质量视频推理数据匮乏。为解决这些问题，我们首先提出了T-GRPO算法，该算法鼓励模型利用视频中的时序信息进行推理。此外，我们不再仅依赖视频数据，而是将高质量图像推理数据纳入训练过程。

2025-03-28 23:03:22 955

原创【AI论文】LEGO拼图：大型语言模型在多步骤空间推理方面的表现如何？

多步骤空间推理涉及跨多个顺序步骤理解和推理空间关系，这对于解决复杂的现实世界应用至关重要，如机器人操作、自主导航和自动化装配。为了评估当前多模态大型语言模型（MLLMs）在获取这一基本能力方面的表现，我们引入了LEGO-Puzzles，这是一个可扩展的基准测试，旨在通过基于乐高（LEGO）的任务来评估MLLMs的空间理解和顺序推理能力。LEGO-Puzzles包含1100个精心挑选的视觉问答（VQA）样本，涵盖11个不同的任务，从基本的空间理解到复杂的多步骤推理。

2025-03-28 18:00:00 692

原创【AI论文】Qwen2.5-Omni 技术报告

在本报告中，我们介绍了Qwen2.5-Omni，这是一个端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理，音频和视觉编码器都采用了分块处理的方法。为了使视频输入的时间戳与音频同步，我们以交错的方式对音频和视频进行顺序组织，并提出了一种新颖的位置嵌入方法，称为TMRoPE（时间对齐的多模态RoPE）。为了避免文本和语音两种模态之间的干扰，同时生成文本和语音，我们提出了Thinker-Talker架构。

2025-03-28 12:00:00 730

原创【AI论文】Dita：扩展扩散变换器以构建通用视觉-语言-动作策略

尽管近期在多样化机器人数据集上训练的视觉-语言-动作模型在有限领域内数据上展现出了良好的泛化能力，但它们依赖紧凑的动作头来预测离散或连续动作，这限制了其对异构动作空间的适应性。我们提出了Dita，这是一个可扩展的框架，它利用Transformer架构，通过统一的多模态扩散过程直接对连续动作序列进行去噪。与先前通过浅层网络在融合嵌入上进行去噪条件化的方法不同，Dita采用了上下文条件化——这使得去噪后的动作能够与来自历史观察的原始视觉标记进行精细对齐。这种设计显式地建模了动作变化和环境细节。

2025-03-28 07:00:00 918

原创【AI论文】基于随机生成与回滚预算强制的流模型推理时缩放

本研究提出了一种基于随机生成和回滚预算强制的推理时缩放方法，主要包括三个关键部分：基于SDE的生成方法、插值转换和回滚预算强制。基于SDE的生成方法SDE转换：为了将流模型的确定性生成过程转换为随机过程，本研究引入了随机微分方程（SDE）的生成方法。通过引入扩散系数，使流模型的生成过程具有随机性，从而支持粒子采样。VP-SDE生成：为了进一步提高样本多样性，本研究采用了方差保持（VP）插值的SDE生成方法。相比传统的线性插值，VP插值能够更好地保持样本的方差，从而在粒子采样过程中产生更多样化的样本。

2025-03-27 18:00:00 808

原创【AI论文】CoMP: 持续多模态预训练的视觉基础模型

CoMP框架是一个精心设计的多模态预训练流程，包括持续旋转位置嵌入（C-RoPE）和对齐损失（Alignment Loss）两个核心组件。通过三阶段训练，CoMP能够持续提升VFMs的性能。

2025-03-27 12:00:00 883

原创【AI论文】基于下一帧预测的长上下文自回归视频建模

长上下文自回归建模在语言生成方面取得了显著进展，但视频生成仍难以充分利用扩展的时间上下文。为了探究长上下文视频建模，我们引入了帧自回归（Frame AutoRegressive, FAR），这是一种用于视频自回归建模的强大基线方法。正如语言模型学习标记（token）之间的因果依赖关系（即标记自回归，Token AR）一样，FAR模型学习连续帧之间的时间因果依赖关系，其收敛效果优于标记自回归和视频扩散变换器。在FAR的基础上，我们观察到长上下文视觉建模由于视觉冗余而面临挑战。

2025-03-27 07:00:00 1354

原创【AI论文】Video-T1: 视频生成中的测试时缩放技术

随着训练数据规模、模型尺寸以及计算成本的增加，视频生成在数字创作领域取得了令人瞩目的成果，使用户能够在多个领域中表达创意。近期，大型语言模型（LLMs）领域的研究人员将这种规模扩展到了测试阶段，通过利用更多的推理时计算资源，可以显著提升LLMs的性能。

2025-03-26 18:00:00 1520

原创【AI论文】立场：交互式生成视频作为下一代游戏引擎

现代游戏开发在传统游戏引擎因预设内容而在创意和成本方面面临重大挑战。近期，视频生成模型取得突破，能够合成逼真且具备交互性的虚拟环境，这为游戏创作带来了一场革命性的机遇。在本立场论文中，我们提出将交互式生成视频（IGV）作为生成式游戏引擎（GGE）的基础，以在下一代游戏中实现无限新颖内容的生成。生成式游戏引擎（GGE）充分利用了交互式生成视频（IGV）在无限高质量内容合成、具备物理感知的世界建模、用户可控的交互性、长期记忆能力以及因果推理等方面的独特优势。

2025-03-26 12:00:00 534

原创【AI论文】我已全面考量：通过稀疏自编码器解读大语言模型中的推理特征

大型语言模型（LLMs）在自然语言处理领域取得了显著的成功。近期的研究进展催生了一类新型推理型大型语言模型；例如，开源的DeepSeek-R1模型通过整合深度思考与复杂推理能力，实现了业界领先的性能。尽管这些模型展现出了令人瞩目的能力，但其内部的推理机制仍尚未得到充分探索。在本研究中，我们采用稀疏自编码器（SAEs）这一方法，该方法能够学习神经网络潜在表示的稀疏分解，将其转化为可解释的特征，从而识别出驱动DeepSeek-R1系列模型进行推理的特征。

2025-03-26 07:00:00 1168

原创【AI论文】MARS：融入苏格拉底引导的多代理框架实现自动化提示优化

本研究提出了一种融入苏格拉底引导的多代理框架（MARS）用于自动化提示优化。MARS框架包含七个具有不同功能的代理，它们通过协作实现提示的自动化优化。多代理框架构建Manager代理：负责管理和调度其他代理，确保整个优化过程的顺利进行。UserProxy代理：负责接收用户输入和任务描述，为其他代理提供必要的信息支持。Planner代理：根据任务需求制定优化路径，为后续的优化过程提供指导。Teacher代理：采用苏格拉底提问方式，引导学生代理进行思考，逐步优化提示。Critic代理。

2025-03-25 18:00:00 2163

原创【AI论文】少即是多：自适应标记缩减以实现高效图像表示

视觉编码器通常会生成大量视觉标记，这些标记提供了信息丰富的表示，但显著增加了计算需求。这就引出了一个问题：所有生成的标记是否都具有同等价值，或者是否可以丢弃其中一些标记以减少计算成本，同时不损害质量。在本文中，我们基于一种新思路提出了一种确定特征效用的新方法，即价值较低的特征可以从价值较高的特征中重建。我们通过将自动编码器与Gumbel-Softmax选择机制相结合来实现这一概念，该机制能够识别并仅保留最具信息量的视觉标记。

2025-03-25 12:00:00 1305

原创【AI论文】MAPS：基于七大人格特质与苏格拉底式引导的多模态科学问题解决多智能体框架

多模态科学问题（MSPs）涉及复杂议题，这些问题需要整合多种模态，如文本和图表，这对人工智能构成了重大挑战。尽管在解决传统科学问题方面已取得进展，但多模态科学问题仍面临两大主要问题：科学问题解决中的多模态综合推理挑战，以及缺乏反思和重新思考的能力。为解决这些问题，我们引入了一个基于七大人格特质与苏格拉底式引导的多智能体框架（MAPS）。该框架采用七个不同的智能体，它们利用反馈机制和苏格拉底式方法来引导多模态科学问题的解决。

2025-03-25 07:00:00 620

原创【AI论文】Cosmos-Reason1: 从物理常识到具身推理

物理人工智能系统需要在物理世界中感知、理解并执行复杂动作。在本文中，我们介绍了Cosmos-Reason1模型，该模型能够通过长链思维推理过程理解物理世界，并以自然语言生成适当的具身决策（例如，下一步动作）。我们首先定义了物理人工智能推理的关键能力，重点聚焦于物理常识和具身推理。为了表示物理常识，我们采用了一种层次化本体论，它捕捉了关于空间、时间和物理学的基本知识。对于具身推理，我们依赖于一种二维本体论，该本体论能够跨不同的物理具身进行泛化。

2025-03-24 18:00:00 573

原创【AI论文】JARVIS-VLA: 对大规模视觉语言模型进行后训练，使其能够使用键盘和鼠标玩视觉游戏

近期，开放世界环境中的基于动作的决策制定受到了广泛关注。在大规模网络数据集上预训练的视觉语言动作（Visual Language Action, VLA）模型在决策制定任务中展现出了潜力。然而，以往的研究主要聚焦于动作后训练，往往忽视了对基础模型本身的增强。

2025-03-24 12:00:00 933

原创【AI论文】DiffMoE：一种用于可扩展扩散变换器（Diffusion Transformers）的动态令牌选择方法

DiffMoE架构的核心思想是在扩散模型的自注意力机制中引入MoE层。具体来说，DiffMoE将输入令牌展平为一个批次级别的全局令牌池，使每个专家能够访问整个批次中的令牌分布。在训练过程中，专家根据令牌的重要性动态选择令牌进行处理，从而促进专家行为的专门化。为了充分利用扩散过程的内在异质性，DiffMoE还整合了一个容量预测器。该预测器能够根据噪声水平和样本复杂度动态分配计算资源。具体来说，容量预测器通过学习训练期间的令牌路由模式，为不同的专家和推理步骤分配不同的计算资源。

2025-03-24 07:00:00 765

原创【AI论文】扩散模型的尺度蒸馏

本研究提出了一种名为尺度蒸馏（SwD）的框架，以实现对扩散模型的加速。该框架通过逐步提升样本在推理过程中的分辨率，减少了推理步骤的数量，从而提高了生成速度。同时，通过引入块损失函数和隐式谱自回归理念，该框架还保持了高质量的生成效果。

2025-03-23 18:00:00 849

原创【AI论文】释放Vecset扩散模型的潜力，实现快速形状生成

本研究采用了一系列创新性的方法来加速VDM的生成过程。这些方法涵盖了扩散采样过程的加速、VAE解码过程的优化以及系统性加速框架的设计等方面。

2025-03-23 12:00:00 1486

原创【AI论文】基于大型语言模型（LLMs）的代理评估综述

基于大型语言模型（LLM）的代理的出现代表了人工智能领域的一次范式转变，使自主系统能够在与动态环境交互的过程中进行规划、推理、使用工具以及维持记忆。本文首次全面综述了针对这些能力日益增强的代理的评估方法。我们系统地分析了四个关键维度下的评估基准和框架，包括：（1）代理的基本能力，如规划、工具使用、自我反思和记忆；（2）针对网络、软件工程、科学和会话代理等特定应用的基准；（3）针对通用代理的基准；以及（4）用于评估代理的框架。我们的分析揭示了新兴趋势，包括向更真实、更具挑战性的评估转变，以及持续更新的基准。

2025-03-23 07:00:00 1389

原创【AI论文】停止过度思考：大型语言模型高效推理调研

大型语言模型（LLMs）在复任务中展现出了卓越的能力。近期，大型推理模型（LRMs）如OpenAI o1和DeepSeek-R1取得了显著进展，它们通过利用监督微调（SFT）和强化学习（RL）技术来增强思维链（CoT）推理，从而在数学和编程等系统2推理领域进一步提升了性能。然而，尽管更长的CoT推理序列能够提升性能，但它们也因冗长和重复的输出而引入了显著的计算开销，这一现象被称为“过度思考现象”。在本文中，我们首次提供了结构化的综述，以系统地调查和探索实现LLMs高效推理的当前进展。

2025-03-22 18:00:00 1157

原创【AI论文】通过蒸馏实现的一步残差偏移扩散用于图像超分辨率

扩散模型在超分辨率（SR）任务中能够生成高质量的视觉结果，但其计算成本高昂。尽管已经开发了多种方法来加速基于扩散的超分辨率模型，但其中一些方法（例如SinSR）无法生成逼真的感知细节，而其他方法（例如OSEDiff）可能会生成不存在的结构。为了克服这些问题，我们提出了RSD，这是一种针对ResShift（一种顶尖的基于扩散的超分辨率模型）的新型蒸馏方法。我们的方法基于训练学生网络，使其生成这样的图像：在这些图像上训练的新伪ResShift模型将与教师模型一致。

2025-03-22 11:18:40 922

原创【AI论文】TULIP：迈向统一的语言-图像预训练

尽管近期诸如CLIP和SigLIP等图像-文本对比模型取得了成功，但这些模型在处理需要高精度图像理解的视觉中心任务时常常面临挑战，例如计数、深度估计和细粒度物体识别。这些模型通过执行语言对齐，往往更侧重于高层语义而非视觉理解，从而削弱了其图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但在理解语言方面存在困难，这限制了它们在语言驱动任务中的灵活性。在本研究中，我们引入了TULIP，这是一种开源的、可直接替代现有CLIP类模型的方案。

2025-03-22 07:00:00 913

原创【AI论文】DeepMesh：基于强化学习的自回归艺术家网格创建

三角形网格在3D应用中扮演着至关重要的角色，能够实现高效的操作和渲染。虽然自回归方法通过预测离散的顶点标记来生成结构化的网格，但它们往往受到面数限制和网格不完整性的约束。为了应对这些挑战，我们提出了DeepMesh框架，该框架通过两项关键创新来优化网格生成：（1）一种高效的预训练策略，结合了新颖的标记化算法，以及在数据整理和处理方面的改进；（2）将强化学习（RL）引入3D网格生成中，通过直接偏好优化（DPO）实现与人类偏好的对齐。

2025-03-21 18:00:00 1099

原创【AI论文】φ解码：用于平衡推理阶段探索与利用的自适应前瞻性采样

推理时优化通过调整计算量来推导出审慎的推理步骤，以实现有效性能。虽然以往基于搜索的策略解决了自回归生成的短视问题，但庞大的搜索空间会导致过度探索而利用不足。为了高效地平衡探索与利用，从而推导出最优步骤，我们将解码策略构建为前瞻性采样，利用模拟的未来步骤来获得全局最优步骤估计。在此基础上，我们提出了一种新颖的解码策略，名为φ解码（phi-Decoding）。为了提供精确且富有表现力的步骤价值估计，φ解码通过前瞻和聚类来近似两个分布。从联合分布中采样，可以选择最优步骤进行利用。

2025-03-21 12:00:00 1295

原创【英伟达AI论文】Cosmos-Transfer1：具有自适应多模态控制的条件世界生成

我们推出Cosmos-Transfer，这是一款条件世界生成模型，能够基于多种模态（如分割、深度、边缘等）的多个空间控制输入来生成世界模拟。在设计上，该空间条件方案具有自适应性和可定制性。它允许在不同空间位置对不同条件输入赋予不同权重。这实现了高度可控的世界生成，并适用于多种世界到世界的迁移用例，包括从模拟到现实（Sim2Real）。我们进行了广泛评估，以分析所提模型，并展示其在物理人工智能（Physical AI）领域的应用，包括机器人从模拟到现实（Sim2Real）迁移和自动驾驶车辆数据增强。

2025-03-21 07:00:00 1166

空空如也

空空如也