自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 探索法律硕士的说服力和灵活性:使用 DuET-PD 和 Holistic DPO 的新评估和培训方法

本文重点研究了 LLM 在说服对话中表现出的立场变化,并系统地研究了其稳健性和适应性。在医疗保健和金融等高风险领域,既能灵活应对纠正措施,又不被不正确的劝说所左右的能力至关重要。然而,现有的 LLM 存在相互矛盾的问题:"轻信任 "和 “固执”。"轻信任 "使 LLM 容易被错误信息所迷惑,而 "固执 "则使 LLM 拒绝做出正确的纠正。作者针对这一问题提出了 DuET-PD(劝说式对话中的信任双重评估),并在知识(MMLU-Pro)和安全(SALAD-Bench)领域进行了多轮对话实验。

2025-12-23 09:19:39 164

原创 Seedream 3.0 填充:OneReward 使下一代掩码编辑成为可能

本文提出了一个新颖的强化学习框架 OneReward,用于综合处理图像生成中的多个编辑任务。传统的图像编辑模型通常是专门针对个别任务(如内画(填充)、外画(增强)、对象移除和文本渲染)进行训练的,由于每个任务的数据分布和评估标准不同,限制了其通用性。此外,传统的基于人类偏好的强化学习(RLHF)需要针对每个任务和评估维度建立不同的奖励模型,这对训练效率和一致性提出了挑战。通过使用 VLM 作为唯一的奖励模型,本研究中的 OneReward 可以实现符合人类偏好的一致评价,同时区分任务和评价标准。

2025-12-23 09:18:15 125

原创 MVTracker:一种多视角三维点跟踪方法,只需少量摄像头即可实现高精度跟踪

本文提出了一种使用多摄像头图像跟踪任意三维点的新方法 MVTracker。传统的单目方法容易受到深度模糊和屏蔽的影响,因此很难在现实世界中高精度地跟踪三维点。现有的多摄像头方法还需要 20 多个摄像头和顺序优化,因此不切实际。MVTracker 是首个数据驱动的多视角三维跟踪器,可使用实际数量的摄像头(如四个)并支持在线处理。该方法整合了来自多个视角的特征和深度信息,从而建立了三维特征点云,并在此基础上使用 k 近邻搜索进行相关性计算。

2025-12-23 09:16:32 243

原创 通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大!

本文提出了一种新方法–Rank-One Safety Injection (ROSI),以提高 LLM 的安全性。近年来,LLM 已被广泛应用,但防止生成危险内容的 "安全对齐 "已成为一项挑战。然而,据报道,这种机制很容易被越狱攻击(越狱)攻破。以往的研究表明,安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。本研究采用了相反的思路,开发了一种轻量级、可解释的方法,通过增强 "拒绝方向 "来提高安全性。ROSI 只需对模型的权重矩阵进行秩 1 更新,无需重新训练或大量调整。

2025-12-23 09:14:06 165

原创 结合多样性和任务专业化的 LLM 学习:TCIA 机制和实验结果

本文提出了一种以任务为中心的指令数据增强方法,称为任务中心指令增强(TCIA),用于 LLM 微调,该方法符合实际应用。传统方法试图通过自生成指令数据增强来确保多样性,但存在重复指令和 "任务漂移 "的问题,这会导致偏离目标任务。在现实世界中,有许多情况下需要的是专门针对特定任务的性能,而不是通用模型,因此必须有一种机制来保持任务的适用性和多样性。TCIA 是一种将自然语言指令分解为 "基本问题 "和 "限制条件 "组合的方法,并在处理限制条件的同时广泛扩展指令。

2025-12-23 09:12:05 312

原创 利用混合语境生成长视频的创新!高效的语境保存和高精度生成

这项研究旨在解决长时间视频生成中的最大难题:长期上下文保存。传统的扩散变换器(Diffusion Transformer)基于自注意机制,很难生成数分钟规模的视频,因为计算复杂度会随着序列长度的增加而平方增加。以前的方法对历史记录进行压缩或固定减薄,但存在细节缺失和重要背景缺失等问题。因此,作者将视频生成重新表述为一个 "内部信息检索 "问题,并提出了一个框架,该框架只动态引用每次查询的相关历史记录。在这一框架中,视频被分为帧或镜头,每次查询都会选择最有意义的上下文。

2025-12-22 15:33:56 172

原创 由 MCP-Bench 首创的 LLM 代理评估新趋势!复杂任务和真实世界场景的挑战

结果表明,功能强大的模型集(如 GPT-5、o3、gpt-oss-120b)在模式理解和工具命名准确性方面的准确率接近 100%,但在长期规划、依赖关系识别和并行处理效率等高阶能力方面存在显著差异。特别是,小规模模型在单服务器环境中取得了一定的成功,但在转到多服务器环境时得分明显下降,而且在维护依赖关系的能力方面也表现出了弱点。其次,使用 LLM 作为考官,对任务完成情况、信息的合理性、工具选择的适当性以及规划的一致性和效率进行评分。首先,收集通过 MCP 服务器提供的多组工具,并分析其输入输出依赖关系。

2025-12-22 15:30:52 269

原创 USO“,一种基于分离和奖励学习的新方法:走在将风格和主题融为一体的图像生成的最前沿

近年来,"风格驱动生成 "和 "主题驱动生成 "作为图像生成中的两个独立问题被研究。前者强调参考图像的风格,而后者侧重于保持人物或物体的一致性,两者被视为对立的。然而,本文认为可以将两者视为统一的。原因在于,这两项任务无非都是将 "内容 "和 "风格 "进行分离和重新组合的任务。因此,作者提出了 USO(统一风格-主体优化)模型。USO 建立了一个大型三元组数据集(内容图像、风格图像和风格应用图像),并进一步将风格对齐学习和内容-风格分离学习结合起来风格对齐学习和内容-风格分离学习。

2025-12-22 15:29:42 343

原创 RStar2-Agent:通过基于 GRPO-RoC 的高效代理强化学习实现最先进的数学推理

本文报告了 rStar2-Agent 的开发和成果,这是一个专门用于数学推理的大规模语言模型。尽管该模型的参数规模高达 140 亿个,但其性能却可与之前参数规模为 6710 亿个的模型所达到的一流水平相媲美。这背后的原因是依赖冗长的思维链(CoT)的传统方法的局限性。换句话说,仅仅通过 “保持足够长的思考时间”,很难发现中间错误和灵活的政策变化。为了克服这一难题,作者引入了代理强化学习(Agentic Reinforcement Learning),旨在 “让思考更聪明”。

2025-12-22 15:28:41 232

原创 Pref-GRPO:通过成对比较实现稳定文本图像生成强化学习的新方法

本文为文本到图像(T2I)模型提出了一种新的强化学习方法。传统的 GRPO(组相对策略优化)方法使用基于分数的奖励模型来评估生成图像的质量,并通过对组内分数进行归一化来更新衡量标准。然而,这种方法容易出现一个被称为 "奖励黑客 "的问题,即分数增加,图像质量却下降。作者指出,这是 "虚幻优势 "造成的。当生成图像之间的分数差异非常小,而归一化会过度强调差异时,就会出现这种情况。为了解决这个问题,研究提出了一种名为 Pref-GRPO 的新方法。

2025-12-22 15:27:21 252

原创 TRACEALIGN:追踪大规模语言模型对齐漂移的原因和保护措施

LLM 经过微调,符合人类的价值观和政策。然而,在实践中,敌意提示、句子解析或生成过程中的细微变化经常导致 "对齐漂移 "现象,即模型产生不安全的输出。以往的研究主要依赖于外部衡量标准,如拒绝率和输出的有害性,但一直缺乏一个框架来探究模型漂移的原因。本文提出了一个名为 TRACEALIGN 的综合框架来解决这一问题。TRACEALIGN 明确跟踪训练数据中哪些记忆可以追溯到有害输出,并通过一种名为信念冲突指数(BCI)的测量方法量化其来源。

2025-12-19 09:30:26 236

原创 AlignGuard-LoRA:一种结合了高效微调和安全保护的新正则化方法

低秩自适应性(LoRA)被广泛用于微调大型语言模型,其优点是效率高、计算资源少。但与此同时,它也存在一个明显的问题,那就是破坏了 “对齐”,而 "对齐 "是为了维护安全性和道德约束。具体来说,会出现毒性声明增加、过度拒绝和偏差恶化等情况,从而降低模型的可靠性。AlignGuard-LoRA 通过使用费雪信息矩阵进行正则化来控制对齐敏感的方向,从而实现任务适应和安全保护。

2025-12-19 09:27:46 296

原创 ChartCap:利用大型数据集和新的评估指标抑制图表标题幻觉

该研究旨在确保整合视觉和语言的模型能够生成 “准确且信息丰富的图表说明(标题)”。现有的图表标题数据集面临两大挑战。首先,从论文和报告中提取的标题包含无法从图表图像中读取的无关信息。其次,标题不能充分体现重要的见解,如坐标轴、图例和其他结构、最大值和趋势。这些问题在模型中造成了 “幻觉”(halucinations),导致了错误的表述。

2025-12-19 09:21:57 380

原创 LAMIC:一种无需学习、布局可控的多参考图像生成方法

本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。

2025-12-19 09:20:37 300

原创 LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准

本文提出了一种新的基准–LiveMCPBench,用于评估大型工具使用环境中代理的能力。传统基准假定只有少量的应用程序接口和模拟工具环境,不能充分反映现实中多样和动态的工具环境。因此,作者利用标准化接口–模型上下文协议(MCP),构建了 LiveMCPTool,其中包括 70 个 MCP 服务器和 527 个真实工具。此外,他们还引入了可实现评估自动化的 LiveMCPEval,通过使用 LLM 作为评估者,他们实现了与人类评估者 81% 的一致率。

2025-12-19 09:16:02 269

原创 Goedel-Prover-V2:通过自我修正和逐步数据合成实现高效自动定理证明的新发展

本文提出了自动定理证明(ATP)的新底层模型 Goedel-Prover-V2。以往的研究需要超大模型(数百个 B 级参数)和庞大的推理计算,这限制了开源模型的性能。因此,作者引入了一种新颖的学习方法和数据生成策略,以实现高效和高性能的定理证明。具体来说,他们采用了 “脚手架式数据合成”(生成难度逐步调整的合成问题)、“验证者指导下的自我修正”(利用精益编译器的反馈)和 “模型平均”(保持输出多样性)。平均化 "来保持输出的多样性。

2025-12-18 16:27:37 358

原创 多人对话视频生成的新发展:麻省理工学院数据集和基线模型 “CovOG

由于传统的语音驱动视频生成研究仅限于单个说话者或人脸领域,本文提出了一项新任务–多人对话视频生成,其目标是生成多人之间的自然对话。研究的重点是构建多人类互动对话数据集(MIT),这是一个 12 小时的高分辨率数据集。该数据集收集了涉及 2 到 4 人的对话视频,并自动分配姿势估计和语音状态分数,以全面捕捉与多人对话相关的语音、听力和手势的互动。此外,作者还开发了一个基线模型 CovOG 来应对这一新挑战。

2025-12-18 16:09:30 586

原创 ToolTrain:利用 LLM 进行资源库深度搜索和问题定位的新方法

本文重点讨论软件开发中的问题定位问题。问题本地化是指以自然语言编写的错误报告为线索,识别代码库中需要修复的代码的过程。对于大型代码库来说,这一过程既耗时又耗力,而且会大大降低开发效率。近年来,LLM 在代码生成和测试生成方面取得了成功,LLM 代理与代码库搜索工具的结合有望实现自动化。然而,这需要一种被称为 "版本库深度搜索 "的复杂搜索,它要求 LLM 具备多阶段推理和高级工具调用能力。现有的 LLM 面临着工具调用错误和推理不一致导致的不准确问题。

2025-12-18 16:07:28 393

原创 启用 FlashAttention 的令牌压缩 “表象移动 “的工作原理和效果

本文提出了一种新方法来应对变压器模型计算成本增加的挑战。近年来,变换器已被广泛应用于自然语言处理和图像/视频理解领域,但随着规模的扩大,处理效率已成为一个严重问题,因为自我注意机制的计算复杂度与输入词块数量的平方成正比增长。传统上,人们试图从两个方向解决这一问题。一种是以 FlashAttention 为代表的内存效率方法,另一种是基于标记压缩的计算量减少方法。然而,标记压缩通常与 FlashAttention 等不建立注意力图谱的机制不兼容,因为它使用注意力图谱来估计标记的重要性。

2025-12-18 16:06:11 304

原创 CRINN:通过强化学习自动优化近似近邻算法

本文的重点是优化高维向量空间中的近似近邻搜索(ANNS)。近似近邻搜索是一种以略微牺牲搜索精度为代价来显著提高搜索速度的技术,最近已成为检索增强生成(RAG)和基于代理的 LLM 应用基础技术的组成部分。传统的优化方法是由人工专家进行剖析、分析缓存缺失、调整数据结构并反复手动调整参数。然而,这种方法既专业又耗费人力,而且在跟上硬件和应用环境的发展方面存在局限性。因此,作者提出了一种新的优化框架–CRINN,它结合了 LLM 和强化学习。

2025-12-18 16:04:30 392

原创 CompassVerifier:彻底改变 LLM 解决方案验证的新基准和稳健模型

本文的重点是 “答案验证”,它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。传统的验证方法主要使用正则表达式进行简单的字符串匹配,或使用通用 LLM 作为决策者。然而,前者需要定制规则,缺乏灵活性,而后者则需要针对具体任务进行及时调整,极易产生错觉和误判。另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。为了解决这些问题,作者建立了一个名为 VerifierBench 的新评估平台,并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。

2025-12-17 10:55:33 401

原创 LongVie:通过多模式控制实现一分钟超高质量视频生成的新时代

本文提出了一个新框架 LongVie,用于高质量、可控地生成超过一分钟的超长视频。扩散建模方面的最新进展推动了从文本和图像生成短视频技术的快速发展,但长视频的生成却面临着显著的挑战,如缺乏时间一致性和图像质量下降。传统方法采用自动回归法,按顺序生成短片。然而,这种方法容易出现不自然的过渡和片段间歇时的闪烁,而且图像质量会随着时间的推移而下降。本研究认为,“噪声初始化的独立性”、"控制信号的逐个片段归一化 "和 "单一模式控制的局限性 "是造成这些问题的原因。

2025-12-17 10:54:06 253

原创 Skywork UniPic:新一代多模态模型,集图像理解、生成和编辑于一体,效率极高

本研究提出的 Skywork UniPic 是一个 1.5B 参数的自回归模型,它将图像理解、从文本生成图像和图像编辑集成在一个架构中。传统上,许多多模态人工智能在单独的模型和适配器中处理理解、生成和编辑,导致性能分散和推理成本增加。UniPic 采用了 “解耦编码策略”,在一个共同的 LLM 骨干上连接了以生成为重点的屏蔽自回归(MAR)编码器和以理解为重点的 SigLIP2 编码器,从而实现了特定任务优化和相互知识转移。

2025-12-17 10:34:31 259

原创 种子扩散预览:兼具快速推理和高性能的下一代代码生成模型

本研究提出了基于离散状态扩散(DSD)的快速推理模型–种子扩散预览(Seed Diffusion Preview),作为大规模语言建模的一种新方法。传统的自回归(AR)模型是按顺序生成标记的,这限制了推理速度,即使是高精度推理也是如此。另一方面,扩散模型可以并行生成,但由于其连续数据假设设计和顺序恢复过程,在自然语言处理领域存在速度和性能问题。该方法将专门用于代码生成的学习流水线与两阶段课程学习、受限生成顺序学习、策略学习和分块并行推理等复杂改进相结合。

2025-12-17 10:32:58 358

原创 MATE:多代理无障碍模式转换框架

本研究提出了一个开源支持框架–多代理翻译环境(MATE),它利用多代理系统(MAS)来解决残疾用户在数字环境中面临的无障碍问题。MATE 是一个利用多代理系统 (MAS) 的开源支持框架。MATE 可根据用户需求在不同模式(文本、语音、图像、视频等)之间进行翻译,从而使有视觉或听觉障碍的人能够轻松获取信息。

2025-12-16 09:38:44 340

原创 Biomed-Enriched:具有 LLM 注释的大型生物医学数据集,具有临床和教育价值

本研究以 PubMed Central Open Access(PMC-OA)语料库为基础,提出了一个新的生物医学数据集 Biomed-Enriched,该数据集采用了基于 LLM 的分阶段注释。虽然 LLM 在各种任务中普遍表现出很高的性能,但在医学和生物医学领域却缺乏专业性和术语准确性。造成这种情况的原因之一是,训练数据主要来自网络,而专业领域的信息很少。特别是,由于隐私限制,临床数据很难公布,非英语数据也很少。

2025-12-16 09:36:40 334

原创 调试 LLM 多少次有效?用于检测效果衰减的新指标 “DDI “是什么?

本文重点研究了调试衰减现象(Debugging Decay Phenomenon),即 LLM 在代码生成过程中的调试能力会随着反复试验而迅速衰减,并提出了一个新的指标–调试衰减指数(Debugging Decay Index,DDI)来定量评估这一现实。传统上,LLM 代码生成依赖于静态指标,如 pass@k,它评估的是单次生成尝试的结果。

2025-12-16 09:35:22 317

原创 速度与准确性的结合:量化感知 LLM 预训练 “QAP“

尽管 LLM 在许多自然语言处理任务中都表现出了不俗的性能,但其推理速度和内存占用却是生产中的主要瓶颈。量化是解决这一问题的一种广泛应用的方法。然而,传统的量化方法存在一个问题,即通过降低模型的准确性来换取推理速度的提高。本文表明,通过在 LLM 训练阶段引入量化感知的 “量化感知预训练”(QAP),可以克服这一权衡问题。具体来说,通过在模型训练过程中提前模拟量化噪声的方法,实现了一种即使在量化后精度也不会轻易下降的结构。因此,与传统模型相比,即使量化位宽相同,也能获得更高的精度和更快的推理性能。

2025-12-15 09:29:00 171

原创 HiWave:无需额外学习即可生成 4K 图像的小波扩散创新]

本文提出的 HiWave 是一种使用预先训练的扩散模型生成超高分辨率(如 4096 x 4096)图像的方法,无需额外的训练或架构修改。虽然现有的基于补丁的方法可以增强局部细节,但容易造成整体结构的破坏和重叠伪影。HiWave 首先生成低分辨率的基础图像,然后将其放大到高分辨率,并对每个补丁应用 DDIM 反变换来估计初始噪声。此外,在频域中,低频分量用于保存结构,而高频分量则用于增加细节信息。在人体评估实验中,发现所提出的方法比传统方法质量更高,因此是高分辨率图像合成的一种新方法。

2025-12-15 09:24:50 166

原创 Forget-Me-Not: 建议采用一种简单的提示技术,防止在长时间的提示中遗忘信息

虽然 LLM 在复杂推理和问题解答中表现出了卓越的性能,但一种被称为 "上下文遗忘 "的现象却是一个挑战。这是指模型在长时间的语境中会逐渐遗忘提示中给出的信息,这会对准确生成回答产生负面影响。本研究重点研究了这种语境遗忘现象,并详细探讨了当前 LLM 在什么条件下会 "遗忘 "信息。此外,作者还提出了一种简单的提示设计工具,称为 “忘我”(FMN)。该工具是一种通过插入上下文的单句指示来提醒模型注意重要信息的机制。

2025-12-15 09:23:45 214

原创 对话优化标记器的潜力:一种将 LLM 推理效率提高 10% 的方法

LLM 的计算资源和能耗与模型中的标记数成正比增长。为了减少标记符的数量,设计高效的标记符生成器非常重要。目前许多标记化器都是针对静态、结构化语料库(如书籍和网络文本)进行优化的。然而,聊天机器人是 LLM 在实践中的主要应用,主要是具有不同输入和输出格式的对话文本。针对这一空白,本研究重新设计了 “对话优化标记符号化器”。具体地说,我们使用真实世界的聊天数据 LMSYS Chat 1M 重新训练了几种 LLM 的标记化器。结果表明,标记符号的减少量最高可达 10%,甚至更多,这表明了提高能效的潜力。

2025-12-15 09:19:35 227

原创 RoboTwin 2.0:双臂操作机器人的可扩展合成数据生成和基准设计

机器人的双臂操纵对于装配操作、工具使用和物品运送等复杂的现实世界任务至关重要。然而,在真实世界环境中进行大规模数据收集在时间和成本方面都很困难,而且所学操纵策略的通用性也很有限。为了解决这个问题,本研究提出了一个名为 "RoboTwin 2.0 "的大规模、高多样性数据生成和基准测试框架。RoboTwin 2.0 采用闭环方法,利用多模态语言模型 (MLLM) 自动生成机器人操作程序,然后通过模拟对其进行修改和增强。

2025-12-15 09:18:37 246

原创 OctoThinker 通过改进 Llama 来支持强化学习,展示了中间学习的威力

本文是一项研究,旨在强调中期训练(mid-training)在使 Llama 等一般基础模型通过强化学习(RL)获得高级推理能力方面的有效性。我们特别关注了基于 Qwen 的模型和基于 Llama 的模型在 RL 扩展行为上的差异,探讨了造成这种差异的原因,并提出了提高 Llama 模型 RL 性能的学习策略。研究的重点是一种名为 "稳定-然后衰退 "的两阶段中期训练策略。第一阶段通过稳定学习培养稳健的推理能力,而第二阶段则使用不同类型的数据(短思维过程、长思维过程及其混合物)生成多分支(分支)模型。

2025-12-12 09:11:31 352

原创 什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器

本文提出了一个高精度模拟平台 DualTHOR,用于模拟双臂仿人机器人在现实世界中执行任务的情况,并评估其规划能力和鲁棒性。许多传统模拟器都是围绕轮式或单臂机器人设计的,往往会忽略物理不确定性和可能出现的故障。这限制了它们在现实世界中的应用。DualTHOR 是对 AI2-THOR 的扩展,具有双臂机器人(Unitree H1 和 Agibot X1)的多种任务套件、基于物理的逆运动学、连续运动控制以及 “执行过程中的故障(如断裂、溢出)模拟应急机制”。

2025-12-12 09:10:55 492

原创 针对大规模语言模型的离群值安全预训练创新,可防止离群值并保护量化准确性

LLM 4 位量化是在设备上部署的一项重要技术,因为它可以大大减少推理过程中的内存使用量。然而,众所周知,训练过程中出现的 “异常值”(极端激活值)会大大降低量化的性能。传统的方法是在训练后处理这个问题,例如通过训练后量化(PTQ),但这些方法并没有从根本上解决这个问题,而是将异常值视为不可避免的。在本研究中,我们提出了解决这一问题的新视角:离群值安全预训练(OSP)训练框架,它由 Muong 优化方法、单尺度 RMS 归一化(SSNORM)和可学习的嵌入式投影(EMBPROJ)组成。

2025-12-11 09:14:47 377

原创 GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战

本文构建了一个名为 "ShareGPT-4o-Image "的新的大规模合成数据集,目的是将 GPT-4o 的高级图像生成功能转移到一个开源的多模态模型中。此外,还提出了一个使用该模型的多模态大规模语言模型 “Janus-4o”。ShareGPT-4o-Image 由 45,000 个文本的图像生成数据和 46,000 个使用图像和文本的图像转换数据组成,这两个数据都是使用 GPT-4o-Image 生成的高质量样本。

2025-12-11 09:14:01 388

原创 FedNano:大型多模态模型的轻量级高效分布式学习

近年来,能够处理图像和语言等多种模式的 MLLM 备受关注。它们在跨模态搜索和视觉问题解答等高级任务中表现出色,但由于参数数量庞大,很难在需要部署到终端侧和保护隐私的实际场景中运行。联合学习(FL)是一种在不集中分布式数据的情况下训练模型的有前途的方法,但其在 MLLM 中的应用存在许多障碍,如计算资源、通信负载和数据的非 IID 性。

2025-12-10 10:23:30 223

原创 ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成

本文提出了一种在沉浸式 VR 空间中自动生成高质量三维场景的新方法 ImmerseGen。与依赖复杂的高多边形建模和三维高斯表示法的传统方法不同,ImmerseGen 使用轻量级几何代理和高质量 RGBA 纹理进行分层场景合成。其核心技术是根据用户输入的文本提示生成以视点为中心的地形纹理,简化中景和前景物体的放置,以及通过自然声音和动态效果整合多感官体验。特别是,通过让代理选择和放置资产,该方法解决了传统方法的瓶颈问题,如缺乏空间理解和冗余资产生成。

2025-12-10 10:22:50 286

原创 为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模型

LVLM近年来备受关注。这些模型将图像信息纳入语言模型,通过结合图像和语言实现高级推理。然而,传统方法面临的挑战是图像信息没有得到充分利用。特别是 "中间丢失 "现象,即 "图像中间信息 "在长语境中容易被模型忽略,以及位置信息准确性的损失一直是问题所在。为了解决这些问题,本文提出了一种名为 "CoMemo "的新架构,它在传统的自回归图像处理基础上,引入了辅助 “记忆路径”,使模型在保留图像上下文信息的同时,能持续关注图像内容。该系统能使模型持续关注图像内容,同时保留图像的上下文信息。

2025-12-09 09:32:58 334

原创 SwarmAgentic:利用蜂群智能全自动生成代理系统

近年来,基于大规模语言模型(LLM)构建自主代理系统备受关注,但传统方法依赖于预先定义的代理模板,存在灵活性和可扩展性问题。在此背景下,本文提出了一个名为 "SwarmAgentic "的新框架。该方法只需将任务描述和目标函数作为输入,就能在结构化的自然语言空间中全自动生成、优化和改进代理的协调结构。该方法的一个显著特点是基于语言对粒子群优化(PSO)进行了重组,粒子群优化是一种群集智能,其中结构化代理系统被视为粒子。每个粒子都有一个用自然语言描述的代理配置和协调策略,并使用 LLM 进行迭代改进。

2025-12-09 09:32:00 361

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除