自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(837)
  • 收藏
  • 关注

原创 【AI论文】DeepSeek-OCR:基于上下文的光学压缩

本文提出DeepSeek-OCR模型,探索通过光学压缩实现长上下文高效处理。模型采用DeepEncoder和DeepSeek3B-MoE解码器架构,支持多分辨率输入,在高压缩比下保持OCR精度:10倍压缩比时精度达97%,20倍时仍保持60%。在OmniDocBench基准测试中,仅用100个视觉标记即超越现有方法,且单块A100可日处理20万页数据。研究验证了光学压缩的可行性,同时指出压缩比与精度平衡、复杂文档处理等挑战,为后续长上下文压缩和LLM记忆优化研究提供了新思路。

2025-11-01 07:00:00 936

原创 【AI论文】步步进阶:面向万亿级思维模型的强化学习规模扩展

摘要:本文介绍了首个开源万亿参数思维模型Ring-1T,通过三项创新技术解决了训练挑战:(1) IcePop稳定强化学习训练,(2) C3PO++优化长序列处理效率,(3) ASystem高性能RL框架。该模型在多项基准测试中表现优异,特别在IMO-2025达到银牌水平。研究解决了万亿参数模型训练的稳定性、效率与系统瓶颈问题,为开源社区提供了前沿推理能力,标志着大规模智能模型发展的重要里程碑。同时也指出了当前架构效率、训练一致性等方面的局限,并展望了未来在模型架构创新、多模态研究等方向的发展。

2025-10-31 18:00:00 742

原创 【AI论文】UniGenBench++:面向文生图(文本到图像生成)的统一语义评估基准

摘要:本文提出UniGenBench++,一个统一的文本到图像(T2I)生成语义评估基准,旨在解决现有评估体系在场景多样性和多维度覆盖方面的不足。该基准包含600个层次化组织的提示,涵盖5大主题、20个子主题及10个主要评估维度27个子维度,支持中英文长短提示组合。研究创新性地利用Gemini-2.5-Pro多模态大模型构建自动化评估流程,并对主流开源/闭源T2I模型进行全面测试。结果表明不同模型在风格、逻辑推理等维度表现差异显著,同时揭示了当前T2I技术在复杂关系理解方面的普遍短板。该研究为提升T2I模型

2025-10-31 12:00:00 1092

原创 【AI论文】世界中的世界:闭环世界中的世界模型

摘要:本文提出“World-in-World”基准平台,首次在闭环环境中评估世界模型(WMs)对具身智能体决策的实际效用。传统评估仅关注视觉质量,而本研究通过四个闭环任务(如导航、操作)和统一规划策略,以任务成功率为核心指标,揭示关键发现:1)视觉质量与任务成功无关,可控性更关键;2)动作-观察数据扩展比升级预训练视频生成器更有效;3)增加推理资源可显著提升性能。研究为具身AI提供了首个标准化评估框架,并提出了数据规模定律,推动了世界模型在真实交互场景中的应用。论文链接:2510.18135。

2025-10-31 07:00:00 1771

原创 【AI论文】LightMem:轻量级且高效的内存增强生成技术

摘要: 针对大型语言模型(LLMs)在动态环境中难以高效利用历史交互的问题,本研究提出轻量化记忆系统LightMem。受人类记忆三阶段模型启发,LightMem通过感官记忆快速过滤冗余信息并主题分组,短期记忆整合主题摘要,长期记忆采用离线睡眠更新机制解耦实时推理。实验显示,LightMem在GPT和Qwen框架下准确率最高提升10.9%,同时词元使用减少117倍,API调用降低159倍,运行时间缩短超12倍。未来将优化压缩模型与知识图谱集成,扩展多模态应用。代码已开源。 (字数:149)

2025-10-30 18:00:00 1606

原创 【AI论文】通过核心注意力解耦实现高效的长上下文语言模型训练

本文提出核心注意力解耦(CAD)技术,通过将二次方复杂度的注意力计算从模型中解耦并分配到专用设备池,显著提升长上下文LLM训练效率。研究发现注意力计算具有无状态性和可组合性特点,据此开发了DistCA系统,采用乒乓执行和动态调度策略实现计算通信重叠。在512块H200GPU的512K上下文实验中,系统吞吐量最高提升1.35倍,有效解决了负载不均衡问题。研究同时指出当前方案存在内存碎片化等局限性,未来可优化内存管理、改进通信模型并扩展应用场景。该技术为超长上下文LLM训练提供了新思路。

2025-10-30 12:00:00 1056

原创 【AI论文】FineVision:你所需者,唯开放数据耳

摘要: 为解决视觉语言模型(VLMs)训练数据存在的碎片化、不一致及污染问题,研究团队推出FineVision——一个经过严格整理的开放多模态语料库,包含2400万样本(1730万图像、8900万对话轮次),规模居同类开放资源之首。通过半自动化流程整合200多个数据源为185个子集:自动化处理批量数据摄入与格式映射,人工审核则验证标注准确性、多样性及安全性,并触发问题修复。该流程还实现了跨源去重,并对66个基准数据集进行去污染处理。FineVision特别纳入统一动作空间的GUI任务数据,经人工验证可执行性

2025-10-30 07:00:00 999

原创 【AI论文】PICABench:我们在实现物理逼真图像编辑的道路上究竟走了多远?

摘要:图像编辑技术虽已能完成复杂指令操作,但现有模型普遍忽视物理效果的真实性。为此,本研究提出PICABench基准测试,从光学、力学等8个维度系统评估编辑的物理一致性,并开发PICAEval评估协议(结合VLM与人工标注)。研究构建了PICA-100K训练数据集(通过视频学习物理知识),评估发现主流模型物理真实感得分普遍低于60分。实验表明:1)明确提示可提升模型表现;2)微调模型物理一致性显著改善;3)评估结果与人类偏好高度相关。研究为物理真实感编辑奠定基础,同时指出数据规模、训练方法等改进方向。论文及

2025-10-29 18:00:00 1596

原创 【AI论文】Glyph:通过视觉-文本压缩扩展上下文窗口

大型语言模型(LLMs)在文档理解、代码分析以及多步推理等任务中越来越依赖长上下文建模。然而,将上下文窗口扩展至百万级词元(token)级别会带来极高的计算和内存成本,限制了长上下文大型语言模型的实际应用。在本研究中,我们从不同的视角——视觉上下文扩展——来应对这一挑战。我们并未选择扩展基于词元的序列,而是提出了Glyph这一框架,它将长文本渲染为图像,并使用视觉语言模型(VLMs)对其进行处理。这种方法在保留语义信息的同时,大幅压缩了文本输入。

2025-10-29 12:00:00 821

原创 【AI论文】深度分析(DeepAnalyze):面向自主数据科学的智能体式大型语言模型

《DeepAnalyze-8B:面向自主数据科学的智能体式大模型》 摘要:本文提出DeepAnalyze-8B,首个专为自主数据科学设计的智能体式大语言模型。该模型通过创新的课程学习训练范式,模拟人类分析师的学习轨迹,实现从原始数据到深度报告的端到端自动化流程。研究采用基于数据支撑的轨迹合成框架构建训练数据,使8B参数的模型在12个基准测试中超越基于工作流且构建在专有大模型上的智能体。实验表明,DeepAnalyze能自主完成数据问答、专业分析和开放式研究等复杂任务。模型、代码及训练数据已开源,为自主数据科

2025-10-29 07:00:00 1472

原创 【AI论文】借助高质量合成数据集实现基于指令的视频编辑规模化扩展

《Ditto框架:推动指令式视频编辑创新的数据生成方案》 摘要:针对指令式视频编辑领域面临的数据稀缺问题,本文提出Ditto框架。该框架通过创新性地整合优质图像编辑器与上下文视频生成器,构建高效的数据生成流程,突破现有模型应用局限。研究采用时序增强模块优化模型架构,在保证质量的同时显著降低计算开销,并引入智能体系统实现自动化的指令生成与质量筛选。基于该框架构建的Ditto-1M数据集包含100万高质量样本,在此基础上训练的Editto模型展现出卓越的指令跟随能力,为视频编辑领域树立了新标杆。实验证实该方案在

2025-10-28 18:00:00 1056

原创 【AI论文】NANO3D:一种无需掩码且无需训练的高效三维(3D)编辑方法

本研究提出无需训练的3D编辑框架Nano3D,通过集成FlowEdit和开发区域感知融合策略(Voxel/Slat-Merge),在保持结构一致性的同时实现精确编辑。实验表明其显著优于现有方法,并构建了首个大规模3D编辑数据集Nano3D-Edit-100k(含10万组编辑对)。该工作解决了算法设计和数据可用性挑战,为前馈式3D编辑模型奠定基础。主要创新包括:1)无需训练的高效编辑框架;2)保持结构一致性的融合策略;3)大规模高质量数据集构建。虽存在局部编辑等局限,但为3D内容创作提供了新工具。

2025-10-28 12:00:00 735

原创 【AI论文】OmniVinci:面向全模态理解大型语言模型(LLM)的架构与数据增强方案

摘要:本研究提出OmniVinci计划,旨在构建开源全模态大语言模型,通过三项关键创新实现跨模态理解:OmniAlignNet增强视觉-音频嵌入对齐,时序嵌入分组捕捉相对时序关系,约束旋转时序嵌入编码绝对时序信息。采用高效数据合成流程生成2400万条多模态对话数据,仅用0.2万亿训练标记即超越现有模型性能——在DailyOmni上较Qwen2.5-Omni提升19.05分,MMAR和Video-MME分别提升1.7分和3.9分。实验验证了模态间的协同增强效应,并展示了在机器人、医疗AI和智能工厂等领域的应用

2025-10-28 07:00:00 829

原创 【AI论文】大型语言模型(LLM)推理中连接内部概率与自洽性的理论研究

摘要:本文针对基于采样的测试时缩放方法(如自洽性和困惑度)在置信度估计上的理论缺陷,提出首个理论分析框架,揭示两者分别存在高估计误差和建模误差的局限性。研究提出混合方法RPC,整合困惑度一致性(提升估计误差收敛速率至指数级)和推理剪枝(消除低概率路径),在7个基准测试中证明其优势:保持自洽性性能的同时,降低50%采样成本并提高置信度可靠性(ECE显著改善)。理论分析与实验结果表明RPC能有效平衡估计误差与模型误差,为LLM推理优化提供新思路。代码已开源。

2025-10-27 18:31:00 990

原创 【AI论文】基于主体性的熵平衡策略优化

本文提出了一种基于主体性的熵平衡策略优化算法(AEPO),用于解决强化学习智能体在长周期工具使用任务中因过度依赖熵信号导致的训练崩溃问题。AEPO包含动态熵平衡推演机制和熵平衡策略优化两个核心组件,通过自适应分配采样预算、施加分支惩罚、插入停止梯度操作等方法平衡熵的影响。实验结果表明,配备AEPO的Qwen3-14B模型在14个数据集上显著优于7种主流强化学习算法,在GAIA等基准测试中取得显著性能提升。该算法在保持策略熵稳定的同时提高了推演多样性,为可扩展的网络智能体训练提供了有效解决方案。

2025-10-27 12:00:00 1693

原创 【AI论文】当模型说谎时,我们亦能有所收获:基于PsiloQA的多语言跨度级幻觉检测

摘要:本研究推出PsiloQA数据集,针对大型语言模型(LLMs)在多语言环境下的幻觉检测难题,构建了覆盖14种语言的细粒度标注资源。通过自动化三阶段流程(问答对生成、多模型答案收集、GPT-4o跨度级标注)创建数据集,相比人工标注显著降低成本。实验表明,微调后的编码器模型(如mmBERT)在多语言场景表现最优,且PsiloQA展现出优异的跨语言泛化能力。当前局限包括单一标注源偏差和任务类型覆盖不足,未来将扩展至更多生成任务并增强低资源语言支持。该研究为多语言环境下的细粒度幻觉检测提供了重要基准。

2025-10-27 07:00:00 1041

原创 【AI论文】注意力照亮大语言模型(LLM)推理:预规划-锚定节奏助力细粒度策略优化

《大型语言模型推理机制与优化策略研究新进展》 摘要:本研究针对大型语言模型(LLM)推理过程不透明、信用分配不均等问题,创新性地通过注意力机制分析揭示其"预规划-锚定"推理节奏。研究发现:1)局部注意力头形成短语块,全局注意力头识别关键锚定词;2)提出窗口平均注意力距离(WAAD)和未来注意力影响力(FAI)两项量化指标。基于此开发三种动态RL策略,在数学推理等任务中实现最高10.5%的性能提升。研究为LLM透明化优化提供了新思路,相关成果已开源。 (149字)

2025-10-26 18:00:00 628

原创 【AI论文】UniMoE-Audio:基于动态容量专家混合模型(Dynamic-Capacity MoE)的统一语音与音乐生成框架

摘要:本研究提出UniMoE-Audio模型,通过动态容量混合专家框架解决语音与音乐生成的统一难题。模型采用Top-P路由策略动态分配专家资源,并结合三阶段训练方案(独立专家训练、MoE整合预热、协同联合训练)有效缓解任务冲突与数据不平衡问题。实验表明,该模型在语音合成(UTMOS 4.36)和音乐生成任务上均达到最优性能,同时展现出跨领域协同学习能力。研究为通用音频生成提供了新思路,但存在数据依赖强、计算复杂度高等局限。项目代码与论文已开源。

2025-10-26 12:00:00 1510

原创 【AI论文】FlashWorld:数秒内生成高质量3D场景

摘要:我们提出FlashWorld模型,可在数秒内通过单图或文本生成高质量3D场景,速度提升10-100倍。该模型突破传统多视图(MV)生成范式,采用面向3D的方法直接生成3D高斯表示,同时保证3D一致性。通过双模式预训练(融合MV和3D模式)和跨模式后训练(匹配高质量分布),解决了3D方法视觉质量不足的问题。实验证明该方法在效率和质量上显著优于现有技术,支持单视图图像和文本输入的泛化。论文链接:2510.13678。

2025-10-26 07:00:00 1374

原创 【AI论文】机器人学习:教程

机器人学习正经历从传统模型驱动向数据驱动范式的转变。本教程系统介绍了现代机器人学习的理论框架与实践方法,重点探讨了强化学习、行为克隆和通用机器人模型三大技术路径。研究通过开源lerobot框架提供了算法实现,在OpenX-Embodiment等数据集上验证了方法的有效性。结果表明,基于Transformer的通用模型展现出良好的跨任务迁移能力,但同时也揭示了样本效率低、安全性不足等局限性。未来研究将聚焦于多模态数据融合、算法鲁棒性提升及标准化评估体系建设。该领域的发展有望推动机器人在智能制造、服务等场景的规

2025-10-25 18:00:00 711

原创 【AI论文】DITING:网络小说翻译评估的多智能体基准测试框架

大型语言模型(LLMs)显著推动了机器翻译(MT)的发展,但其在网络小说翻译中的有效性仍不明确。现有评估基准依赖表面层次的指标,无法捕捉这一文体的独特特征。为填补这些空白,我们推出DITING——首个针对网络小说翻译的综合性评估框架,从六个维度评估翻译的叙事完整性与文化适配性:习语翻译、词汇歧义、术语本地化、时态一致性、零代词消解和文化安全性,并依托1.8万余条专家标注的中英对照句子对作为支撑。

2025-10-25 12:00:00 1389

原创 【AI论文】通过自监督预训练推进端到端像素空间生成建模

摘要:本研究提出语言中心的多模态表示学习框架(LCO-EMB),通过分析多模态大语言模型(MLLMs)的隐式跨模态对齐特性,结合轻量级对比学习微调提升模型表示能力。研究揭示了生成预训练阶段的隐式对齐机制,设计了基于LoRA的微调策略,并提出生成-表示缩放定律(GRSL)。实验表明,该方法在视觉文档检索、多语言图像检索等任务中显著提升性能,验证了生成能力与表示能力的正相关性。研究成果为优化MLLMs的跨模态理解提供了新思路。

2025-10-25 07:00:00 985

原创 【AI论文】扩展以语言为中心的全模态表征学习

本研究揭示多模态大语言模型(MLLMs)在生成预训练阶段通过语言解码器实现了隐式跨模态对齐,提出语言中心的全模态嵌入框架LCO-Emb。通过分析表征各向异性和核相似性结构验证了跨模态对齐现象,并发现生成-表征缩放定律(GRSL):模型生成能力与表征质量呈正相关。实验证明该框架在视觉文档检索等任务中表现优异,持续生成式预训练可进一步提升嵌入能力。研究为理解MLLMs表征优势提供了新视角,并展示了生成能力提升对表征性能的促进作用。

2025-10-24 18:00:00 885

原创 【AI论文】空间强制对齐:面向视-语-行模型的隐式空间表征对齐方法

《空间强制对齐提升VLA模型三维感知能力》 摘要:本文针对现有视觉-语言-动作(VLA)模型因依赖二维预训练而缺乏空间感知能力的问题,提出了一种创新的空间强制对齐(SF)策略。该方法通过将VLA模型的中间视觉嵌入与预训练3D基础模型生成的几何表征对齐,无需显式3D输入即可隐式增强模型的空间理解能力。实验表明,SF策略在模拟环境和真实世界任务中均取得最优效果,显著提升了动作精度,同时实现最高3.8倍的训练加速和更高的数据利用效率。该研究为增强机器人的三维空间操作能力提供了有效解决方案。

2025-10-24 12:00:00 650

原创 【AI论文】OmniVideoBench:面向全模态多语言大模型(Omni MLLMs)的视听理解评估

摘要:本文提出OmniVideoBench——首个专注评估多模态大语言模型(MLLMs)音视频协同推理能力的大规模基准。该基准包含628个时长5秒至30分钟的视频和1000个经人工验证的高质量问答对,涵盖13类精心设计的任务类型,特别强调音频与视觉模态的互补性与逻辑一致性。评估结果显示:当前最佳模型Gemini-2.0-Pro准确率仅58.9%,开源模型表现更接近随机猜测;模型在音乐理解等任务上准确率不足40%,帧数增加可提升性能但开放问答准确率显著低于多选题。研究揭示了现有模型与人类推理能力的差距,为开发

2025-10-24 07:00:00 1062

原创 【AI论文】潜在空间精化解码:通过优化信念状态提升基于扩散的语言模型性能

摘要:本文提出潜在精炼解码(LRD)框架,解决扩散语言模型中的信息丢失和过早收敛问题。LRD采用两阶段设计:潜在精炼阶段在嵌入空间进行软扩散,保留预测分布信息;预测反馈循环阶段渐进确定token,通过KL散度监控实现自适应阶段转换。实验表明,在数学推理(GSM8K提升2.9%)和代码生成(HumanEval提升6.3%)任务上,LRD显著提升性能同时实现最高10.6倍加速。该框架为并行序列生成提供了高效解决方案,相关代码已开源。

2025-10-23 18:00:00 724

原创 【AI论文】具备表征自编码器的扩散变换器

摘要:本研究针对扩散变换器(DiT)中传统变分自编码器(VAE)的局限性,提出表征自编码器(RAE)作为替代方案。RAE采用预训练表征编码器(DINO、SigLIP等)与轻量级解码器配对,在保持高质量重建的同时提供语义丰富的潜在空间。针对高维潜在空间的挑战,研究提出宽度匹配策略和噪声调度优化,开发了宽而浅的DiTDH架构。实验表明,该方法在ImageNet上取得显著效果:256×256分辨率下FID达1.51(无引导),512×512达1.13(有引导)。RAE展现出更快的收敛速度和更好的可扩展性,为扩散变

2025-10-23 12:00:00 799

原创 【AI论文】QeRL:超越效率——面向大语言模型(LLMs)的量化增强型强化学习

摘要:本研究提出QeRL框架,通过NVFP4量化与LoRA技术结合,显著提升大语言模型强化学习训练效率。该框架在推演阶段实现1.5倍加速,首次在单块H10080GBGPU上完成320亿参数模型训练。实验显示,QeRL在7B模型上达到与全参数微调相当的性能(GSM8K90.8%,MATH50077.4%),同时量化噪声增强探索能力,通过自适应噪声机制实现更快奖励增长。研究为大语言模型强化学习提供了高效解决方案。

2025-10-23 07:00:00 1408

原创 【AI论文】AutoPR:让我们助你实现学术晋升自动化!

摘要:本研究提出"自动学术推广"(AutoPR)任务,旨在将学术论文自动转化为适合社交平台传播的内容,以提升学术成果的可见性。研究构建PRBench多模态基准测试集(包含512篇论文及其推广文案),从保真度、吸引力和适配度三个维度评估系统性能。同时开发PRAgent多智能体框架,通过内容提取、协作合成和平台适配三阶段实现推广内容自动化生成。实验表明,PRAgent相比直接使用大语言模型,能将观看时长提升604%、点赞数增加438%,整体参与度至少提高2.9倍。该研究为学术传播自动化提供了

2025-10-22 18:00:00 1628

原创 【AI论文】KORMo:面向大众的韩语开放推理模型

摘要:本研究首次系统探索了基于合成数据构建非英语(韩语)完全开放双语大语言模型(LLM)的可行性。团队开发的KORMo-10B模型(108亿参数)采用68.74%韩语合成数据进行训练,实验证明:1)经优化的合成数据能稳定支撑大规模预训练而不导致性能下降;2)双语指令微调可使模型达到接近母语水平的韩语能力。该模型在多项基准测试中表现与主流开源多语言模型相当,同时完整公开了数据、代码和训练方案,为低资源语言LLM开发提供了可复现的透明框架。研究成果验证了合成数据在多语言LLM训练中的可靠性,并为未来研究建立了方

2025-10-22 12:00:00 733

原创 【AI论文】以相机视角思考:面向以相机为中心的理解与生成的统一多模态模型

摘要:Puffin模型提出了一种创新的"相机即语言"范式,将相机几何理解与可控内容生成统一在单一多模态框架中。该模型通过融合语言回归与扩散生成技术,实现了从任意视角解读和创建场景的能力。研究团队构建了包含400万视觉-语言-相机三元组的大规模数据集Puffin-4M,并整合全局相机参数与像素级映射图,使模型具备灵活的空间感知能力。实验证明,Puffin在相机参数估计和空间一致性生成任务上均优于现有方法,并能通过指令微调扩展到空间想象、世界探索等跨视角应用。虽然当前模型存在分辨率限制等局限

2025-10-22 07:00:00 763

原创 【AI论文】D2E:基于桌面数据扩展视觉-动作预训练规模,以迁移至具身人工智能领域

摘要:本研究提出D2E框架,探索桌面交互作为机器人具身AI任务的预训练方案。通过开发OWA工具包统一桌面数据格式(152倍压缩率),训练通用逆动力学模型实现跨游戏零样本泛化,并采用VAPT方法迁移预训练表征。实验使用1300+小时数据(含1000+小时伪标注游戏数据),在LIBERO操作基准达96.6%成功率,CANVAS导航基准达83.3%成功率,验证了桌面预训练的有效性。该框架为降低具身AI数据收集成本提供了新思路,相关工具包、数据集和模型将开源。

2025-10-21 18:00:00 1628

原创 【AI论文】元认知意识提升推理模型效能:自对齐强化学习

摘要:本研究提出通过自对齐机制增强推理模型的元认知能力(MASA框架),解决现有模型推理过程与元预测不对齐的问题。该方法无需外部资源,通过自生成信号实现元认知训练,显著提升模型性能:在数学推理任务中准确率提升6.2%-19.3%,训练效率提升1.28倍;在跨领域测试中准确率提升2.08%-3.87%。研究创新性体现在元预测与真实推理的自对齐机制,以及通过预测性门控和早期截断提升训练效率的策略。

2025-10-21 12:00:00 2077

原创 【AI论文】VideoCanvas:通过情境条件调节实现基于任意时空片段的统一视频补全

摘要:本文提出VideoCanvas框架,针对任意时空视频补全任务,通过创新的情境内条件设定范式解决了潜在视频扩散模型中的时间模糊性问题。该框架采用混合条件策略(零填充处理空间布局+时间旋转位置编码插值处理时序对齐),在冻结主干网络的情况下实现了像素级帧控制。研究构建了首个专用基准VideoCanvas-Bench,实验表明该方法在场景保真度和创造性合成方面均优于现有技术,统一了多种视频生成任务。同时指出了预训练VAE兼容性、计算效率等局限,并展望了改进方向。

2025-10-21 07:00:00 1545

原创 【AI论文】UniVideo:面向视频的统一理解、生成与编辑

摘要:本研究提出UniVideo统一多模态视频生成与编辑框架,突破现有模型主要局限于图像领域的局限。该框架采用双流设计,结合多模态大语言模型(MLLM)和多模态扩散变换器(MMDiT),实现对复杂指令的准确解析与高质量视频生成。实验表明,UniVideo在文本/图像到视频生成、情境视频编辑等任务中达到或超越当前最优模型,并展现出任务组合与零样本迁移的泛化能力。研究还支持基于视觉提示的视频生成,并将公开模型与代码以促进后续研究。

2025-10-20 18:00:00 925

原创 【AI论文】MemMamba:对状态空间模型中记忆模式的重新思考

**摘要:**本研究针对长序列建模中Mamba模型存在的记忆衰减问题,提出MemMamba架构。通过数学推导和信息论分析,揭示了Mamba信息衰减机制,并引入水平-垂直记忆保真度指标。MemMamba创新性地融合状态总结机制和跨层/跨标记注意力,在PG19、密码检索等任务中表现优于Mamba变体和Transformer,推理效率提升48%,同时保持线性复杂度。研究为超长序列建模提供了新范式,但存在状态池固定、跨层注意力触发机制等局限,未来可探索动态调整策略和多模态扩展。

2025-10-20 12:00:00 1726

原创 【AI论文】DreamOmni2:基于多模态指令的编辑与生成

研究摘要:本研究提出DreamOmni2框架,解决多模态指令图像编辑与生成的两大核心挑战。针对现有方法在捕捉编辑细节和处理抽象概念上的不足,研究构建三阶段数据合成管道:通过特征混合生成高质量图像对,利用编辑/提取模型创建多模态训练数据,并建立包含319个真实图像用例的基准测试集。模型创新性地引入索引编码和位置编码偏移方案处理多图像输入,结合视觉语言模型联合训练提升指令理解能力。实验表明,DreamOmni2在具体对象和抽象属性处理上优于GPT-4o等商业模型,为推进多模态图像生成技术提供新思路。模型和代码将

2025-10-20 07:00:00 928

原创 【AI论文】MM-HELIX:借助整体式平台与自适应混合策略优化,提升多模态长链反思推理能力

摘要:本研究针对多模态大语言模型(MLLMs)在长链反思推理能力上的不足,构建了包含1260个样本的MM-HELIX多模态基准测试集,涵盖42个需迭代推理的复杂任务。测试结果显示现有MLLMs存在显著缺陷。为解决这一问题,研究团队开发了步骤引导响应生成流程,创建了包含10万高质量推理轨迹的MM-HELIX-100K数据集,并提出自适应混合策略优化(AHPO)训练方法,动态结合离线监督和在线优化。实验表明,该方法使Qwen2.5-VL-7B模型在MM-HELIX基准上准确率提升18.6%,在通用数学和逻辑任务

2025-10-19 18:00:00 1416

原创 【AI论文】通过早期经验进行智能体学习喜欢

摘要: 语言智能体的训练面临专家数据有限和强化学习奖励信号不足的挑战。本研究提出"早期经验"范式,通过智能体自身交互数据(无需外部奖励)进行训练,探索了两种策略:隐式世界建模(预测环境动态)和自我反思(从次优行为中学习)。在8个环境中的实验表明,该方法显著提升了任务成功率和跨领域泛化能力,并为后续强化学习提供了更好的初始化基础。研究为模仿学习与完全经验驱动型智能体之间搭建了可行桥梁,但存在短期跟踪限制和数据生成效率等问题待解决。

2025-10-19 12:00:00 1881

原创 【AI论文】MATRIX:面向交互感知型视频生成的掩码追踪对齐方法

摘要:本研究针对视频扩散变换器(VideoDiTs)在多实例交互建模中的局限性,提出MATRIX-11K数据集和交互感知评估框架InterGenEval。通过分析视频DiTs的语义锚定和传播机制,发现交互效应集中于特定层。基于此提出MATRIX方法,通过掩码轨迹对齐增强交互表现。实验表明该方法显著提升交互保真度,减少漂移和幻觉,优于主流基线模型。研究为复杂交互视频生成提供了新思路和技术方案。

2025-10-19 07:00:00 996

### 【图像生成领域】GPT-ImgEval:评估GPT-4o图像生成能力的全面基准测试系统设计与分析

内容概要:本文介绍了GPT-ImgEval,这是首个全面评估GPT-4o图像生成能力的基准测试工具。GPT-4o是OpenAI最新发布的多模态大模型,在图像生成、编辑和视觉语言推理方面表现出色。GPT-ImgEval从三个关键维度评估GPT-4o:生成质量(通过GenEval数据集)、编辑熟练度(通过Reason-Edit数据集)以及基于世界知识的语义合成(通过WISE数据集)。研究发现,GPT-4o在这些任务上显著超越了现有方法,展示了强大的生成控制能力和输出质量。此外,文章还探讨了GPT-4o可能采用的底层架构,提出了基于分类模型的方法来区分自回归和扩散解码器,并推测其内部使用了扩散头进行图像解码。研究还揭示了GPT-4o在生成过程中的一些局限性,如尺寸不一致、高分辨率和过度细化的限制、复杂场景处理困难等。最后,文章对比了GPT-4o与Gemini 2.0 Flash在多轮图像编辑方面的表现,并讨论了GPT-4o生成图像的安全性和可检测性。 适合人群:对图像生成技术感兴趣的科研人员、开发者和工程师。 使用场景及目标:①评估和比较不同图像生成模型的性能;②深入理解GPT-4o的内部架构及其优缺点;③为未来的研究提供可靠的基准测试工具和方法。 其他说明:GPT-ImgEval提供了详细的定量和定性评估结果,帮助研究人员更好地理解和改进图像生成技术。此外,作者还开源了用于评估GPT-4o的自动化脚本和数据集,以便社区进一步研究和应用。

2025-04-04

### 【计算机视觉】RISEBench:评估推理驱动的视觉编辑能力的基准测试系统设计与分析

内容概要:本文介绍RISEBench——首个用于评估多模态模型(LMMs)推理引导视觉编辑(RISE)能力的基准测试。RISEBench专注于四种关键推理类型:时间推理、因果推理、空间推理和逻辑推理。它提供了一套高质量的测试用例和评价框架,涵盖指令推理、外观一致性以及视觉合理性。研究结果显示,尽管GPT-4o-Native在多个维度上表现最佳,但即使是当前最先进的模型在逻辑推理任务中仍存在明显不足。这突显了逻辑推理作为未来研究的重要方向。此外,RISEBench致力于持续扩展和改进,以支持更全面、可靠且可扩展的下一代多模态系统评估。 适合人群:对多模态模型、计算机视觉及图像生成领域有兴趣的研究人员和技术开发者。 使用场景及目标:①评估不同模型在推理引导视觉编辑任务中的表现;②为研究人员提供一个系统化评估和改进模型推理能力的基础工具;③推动未来多模态模型的发展,特别是在逻辑推理方面的能力提升。 其他说明:RISEBench不仅提供了详细的评分指南,还设计了一个基于LMM的自动评估管道,以确保评价结果的一致性和准确性。此外,作者团队承诺将继续完善该基准测试,使其能够适应更多样化的应用场景和技术进步。

2025-04-04

论文:人工智能基于脑启发智能的多模块智能体设计与挑战:从认知到协作的全基础智能体(Foundation Agents)领域的进展与挑战:从类脑智能到进化型、协作型及安全型系统面综述

内容概要:本文综述了智能体领域从脑启发智能到进化、协作和安全系统的最新进展与挑战。文章首先介绍了大型语言模型(LLMs)的发展及其对智能体设计、评估和持续改进的影响,强调了模块化、脑启发架构的重要性。随后,文章详细探讨了智能体在个人助手系统、游戏环境、机器人流程自动化(RPA)和多媒体内容生成等领域的应用,特别是在视觉感知方面的进步。此外,文中还讨论了智能体面临的挑战,如模型误判、数据集多样性不足、硬件性能差异以及供应链攻击等问题。最后,文章提出了多种应对策略,包括数据增强、不确定性估计、生物启发学习框架等。 适合人群:对人工智能、特别是智能体技术感兴趣的科研人员、工程师和研究生。 使用场景及目标:①了解智能体在不同应用场景中的最新进展;②掌握智能体设计、评估和改进的关键技术和挑战;③探索智能体在未来研究和实际应用中的潜力和发展方向。 其他说明:本文不仅涵盖了智能体的技术细节,还深入探讨了其面临的伦理和安全问题,为未来的研究提供了全面的视角。阅读时应重点关注智能体的设计原则、应用场景和技术挑战,以便更好地理解和应对这一领域的复杂性。

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除