LLM
文章平均质量分 91
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!
UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。原创 2025-12-17 07:51:21 · 444 阅读 · 0 评论 -
Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!
解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。原创 2025-12-16 13:56:35 · 720 阅读 · 0 评论 -
1步顶100步!TwinFlow:无需教师模型,仅单步推理,Qwen-Image-20B生成速度涨100倍!
TWINFLOW,一个用于训练大型少步连续生成模型的简单而有效的框架。消除了对 GAN 判别器或冻结教师模型等辅助训练组件的需求。允许对大模型进行直接的 1 步或少步训练,使其特别易于访问和高效。通过在不同规模和任务上进行的大量实验,证明了 TWINFLOW 在大模型上的文本到图像合成中提供了高质量的生成能力。原创 2025-12-12 07:26:01 · 801 阅读 · 0 评论 -
重磅!阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002:97.4%成功率刷新认知
《RynnVLA-002:统一视觉-语言-动作与世界模型的创新架构》 摘要:本文提出RynnVLA-002模型,首次将视觉-语言-动作(VLA)模型与世界模型统一于单一框架。该模型通过双向增强机制实现互补:世界模型利用物理规律优化动作生成,而VLA增强视觉理解以提升图像预测精度。创新性地采用混合动作生成策略,包括"动作注意力掩码"解决离散动作误差累积,以及连续ActionTransformer头确保实机操作的平滑性。原创 2025-11-25 23:32:56 · 1024 阅读 · 0 评论 -
第二弹!MIT何恺明团队再发重磅成果VARC:ARC原来是个视觉问题!性能匹敌人类水平
本文提出VisionARC(VARC)框架,首次将抽象推理语料库(ARC)重新定义为纯粹视觉问题,而非传统的符号逻辑问题。通过将ARC任务构建为图像到图像翻译问题,并采用标准视觉模型(如ViT)配合"画布"表示、几何数据增强和测试时训练等方法,VARC在ARC-1基准测试中达到54.5%准确率(集成后60.4%),仅需18M参数即超越现有递归/符号模型,接近人类平均水平。原创 2025-11-20 08:02:42 · 630 阅读 · 0 评论 -
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件
《IVEBench:首个指令驱动视频编辑综合评测基准》提出了一套全面评估指令驱动视频编辑能力的基准系统。该研究针对当前视频编辑评测存在的三大局限:1)缺乏针对自然语言指令的评测体系;2)任务类型局限于静态图像编辑范式;3)评测维度不完整等问题,构建了包含600条高质量视频、覆盖7大语义维度的多样化数据库,并设计了8类35子类的视频编辑任务体系。 创新性地结合传统指标与多模态大模型(MLLM)评估,建立了包含12项定量指标的三维评估体系(视频质量/指令一致性/视频保真度)。原创 2025-10-28 09:26:38 · 768 阅读 · 0 评论 -
小模型大能力!苹果发布统一多模态小钢炮Manzano:单模型搞定识图、生图,效果炸裂!
Manzano模型创新性地通过混合视觉分词器和统一训练策略,实现了多模态大语言模型在图像理解与生成任务上的协同优化。该模型采用共享编码器+双适配器结构,在单一语义空间中同时支持连续(理解)和离散(生成)表征,有效缓解任务冲突。实验表明,3B小模型即可在文本密集型理解任务上媲美专用模型,并在生成任务达到SOTA性能。其解耦设计和三阶段训练方案(预训练-继续预训练-微调)展现出优异的扩展性:LLM解码器扩大至30B时性能持续提升,尤其在文本渲染和图像结构完整性方面进步显著。原创 2025-10-15 22:47:26 · 696 阅读 · 0 评论 -
CVPR 2025 | 训练效率提升42%!上交&腾讯优图&浙大发布IAR:打破LLM视觉生成瓶颈
针对自回归视觉生成模型中图像与语言的根本差异问题,提出IAR改进方法。研究发现视觉编码空间中相似编码对应相近图像内容,据此设计两项创新技术:(1)基于平衡K-means的码本重排策略,确保簇内编码高度相似;(2)簇导向交叉熵损失,引导模型预测目标Token所在簇而非单一Token。实验表明,该方法显著提升生成质量和训练效率(最大提升42%),在ImageNet上取得FID 2.19、IS 362.0的SOTA效果,且可泛化至LlamaGen、VAR等多种自回归模型。该工作为统一多模态生成提供了新思路。原创 2025-06-15 22:57:41 · 981 阅读 · 0 评论 -
颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。原创 2025-03-10 07:40:44 · 1024 阅读 · 0 评论 -
大语言模型都有哪些特质?区分度达97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
区分不同LLM生成的文本:研究旨在识别和区分不同大型语言模型(LLM)生成的文本,揭示各模型的独特输出模式。理解LLM的独特行为:通过分析LLM生成的文本,探讨这些模型的独特行为及其在语义层面的表现。原创 2025-03-05 22:41:51 · 956 阅读 · 0 评论 -
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。原创 2025-03-02 09:38:43 · 2670 阅读 · 0 评论 -
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。原创 2025-02-16 17:09:27 · 1978 阅读 · 0 评论 -
完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具
解决的问题人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。提出的方案本文引入Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。原创 2025-01-06 23:34:03 · 2651 阅读 · 0 评论 -
华佗来了,首个具备复杂推理能力的医学大语言模型!港中文等发布HuatuoGPT-o1
医学领域的推理能力尚未被充分探索,尽管其重要性与数学领域相似。医学推理的验证比数学更具挑战性,需要可靠的答案来满足高标准的医疗保健需求。原创 2025-01-04 23:21:58 · 1390 阅读 · 0 评论 -
比Janus更强!15M数据实现颠覆性统一多模态大模型!华为诺亚提出ILLUME
多模态统一建模挑战:如何在单一的大语言模型中无缝融合多模态理解和生成能力。数据效率问题:减少图文对齐所需的大规模数据集,降低训练成本。多模态协同增强不足:现有模型在多模态理解和生成能力的协同提升方面探索有限。原创 2024-12-16 23:04:10 · 1245 阅读 · 0 评论 -
OpenCompass排名第一!腾讯微信开源POINTS1.5:面向现实应用的VLM,支持双语
这些基准包括用于诊断一般能力的MMBench和 MMStar,用于测试STEM相关能力的MMMU,用于模型幻觉的HallusionBench,用于数学相关能力的MathVista,用于图表相关能力的AI2D,用于OCR能力的OCRBench,用于主观评估的MMVet。与此不同,POINTS1.5采用了NaViT风格的架构,沿用了Qwen2-VL 和Idefics2的方法,使其能够处理任意分辨率的图像,而无需拆分图像,从而在性能上大大超越了POINTS1.0中使用的双CLIP视觉编码器。原创 2024-12-15 23:37:23 · 1114 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2648 阅读 · 0 评论 -
VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
解决的问题当前视觉语言模型(VLMs)在处理复杂的视觉问答任务时,系统性和结构化推理能力较弱,尤其在多阶段推理任务中表现不佳。提出的方案引入LLaVA-o1,一个新型 VLM,采用自主的多阶段推理策略。与链式思维(chain-of-thought)提示不同,LLaVA-o1 将推理分为以下独立阶段:总结、视觉解释、逻辑推理和结论生成。应用的技术构建 LLaVA-o1-100k 数据集,整合多种视觉问答数据来源,提供结构化推理标注。原创 2024-11-19 08:51:52 · 2219 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 1252 阅读 · 0 评论 -
苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!
生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。原创 2024-10-21 21:29:59 · 615 阅读 · 0 评论 -
矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI
引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。原创 2024-10-20 22:31:25 · 1312 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1400 阅读 · 0 评论 -
详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)
在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。原创 2024-10-11 08:27:28 · 5881 阅读 · 0 评论 -
从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述
文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时间信息的连续帧,而长视频则由多个事件组成,涉及事件之间和长期的时间信息。原创 2024-10-09 23:45:13 · 3670 阅读 · 4 评论 -
Qwen2-VL全面解读!阿里开源多模态视觉语言模型,多项超越GPT4o与Claude 3.5-Sonnet
Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处理方法,解决了在处理不同分辨率图像时的效率和准确性问题。原创 2024-09-24 09:02:50 · 9404 阅读 · 0 评论 -
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。原创 2024-08-29 09:17:21 · 1191 阅读 · 0 评论
分享