- 博客(385)
- 收藏
- 关注
原创 (2025|ICLR|NUS & 阿里,DyDiT,输入无关,时间步动态宽度,空间动态 Token)动态 DiT
本文提出 DyDiT,一种可在时间和空间维度动态调整计算资源的架构。在时间维度上,引入 时间步动态宽度,使模型根据扩散时间步动态调整网络宽度;在空间维度上,提出空间动态 Token,跳过对预测难度低的图像区域的冗余计算
2025-04-04 13:18:36
375
原创 (2025|字节,MLLM,VoRA,块级蒸馏,双向视觉注意力)视觉作为 LoRA
本文提出 VoRA,将视觉能力内置于 LLM,以实现无需外部视觉编码器的 MLLM。与主流 MLLM 依赖外部视觉模块不同,VoRA 通过直接将视觉专用的 LoRA 集成进 LLM,使其在推理时可合并为标准模型,极大降低结构复杂度与计算开销
2025-04-01 12:16:52
638
原创 (2025|阿里,DiT,时空 VAE,多模态(文本,图像,视频,音频)生成)Wan:开放且先进的大规模视频生成模型
本文详细介绍基础视频生成模型 Wan 的 Wan-VAE 与 DiT 架构设计、训练流程、数据构建与评估方法;深入探索了多个下游应用,如图像生成视频、视频编辑、个性化生成,展现出 Wan 的广泛适应性
2025-03-31 14:33:58
1019
原创 (2025|Qwen Team,多模态,TMRoPE,Thinker-Talker)Qwen2.5-Omni 技术报告
本文提出了 Qwen2.5-Omni,一种端到端多模态模型,通过 Thinker-Talker 架构和 TMRoPE 位置嵌入,能够同时处理文本、图像、音频和视频,并以流式方式生成文本和自然语音响应。为实现多模态信息的实时流式输入,音频和视觉编码器均采用分块处理,以分担长序列数据的感知和处理任务。
2025-03-28 12:38:43
695
原创 (2025|DeepMind,多模态,长上下文,多语言,交错的注意力,量化,蒸馏,高分辨率)Gemma 3 技术报告
本文介绍了 Gemma 开源语言模型家族的最新版本 Gemma 3,主打轻量级、通用性强。与前代相比,Gemma 3 引入三大新能力:多模态理解(尤其是图像)、更长的上下文处理能力(最多支持 128K token)、增强的多语言支持。
2025-03-27 12:10:01
865
原创 (2025|DeepSeek,增强的 Janus)Janus-Pro:通过数据和模型扩展实现统一的多模态理解和生成
本文提出 Janus 的增强版本 Janus-Pro,旨在提升多模态理解和文本生成图像的能力。Janus-Pro 在三个维度上进行改进:训练策略、数据扩展和模型规模扩展。Janus-Pro 在多个基准任务中取得领先成绩,验证了其方法的有效性
2025-03-26 11:29:30
870
原创 (2024|DeepSeek,为理解与生成设计独立的视觉编码路径)Janus:解耦视觉编码以实现统一的多模态理解和生成
本文提出了 Janus,一个通过视觉编码器解耦的统一多模态框架。Janus 分别为理解与生成任务设计独立的视觉编码路径,并使用统一的 Transformer 处理输入,从而缓解任务间冲突,提升灵活性。
2025-03-25 12:55:35
990
原创 (2025|NVIDIA,监督微调,强化学习,LLaVA,Mamba)Cosmos-Reason1: 从物理常识到具身推理的探索
本文提出了 Cosmos-Reason1 系列多模态大语言模型,专注于提升物理人工智能系统在物理常识与具身推理方面的能力。模型能够通过对视频等视觉输入的理解,结合长链式思维过程,在自然语言中做出符合物理逻辑的推理与决策。
2025-03-23 12:48:03
734
原创 (2025|NVIDIA,DiT,ControlNet)Cosmos-Transfer1:具有自适应多模态控制的条件世界生成
Cosmos-Transfer1 是一种具备自适应多模态控制能力的扩散模型,可用于高质量、可控的世界视频生成。其引入的控制分支与时空控制图机制提供了灵活性与精度的平衡。
2025-03-22 12:40:34
974
原创 (2025|ICLR|浙大&西湖大学,LLaVA,CLIP)PATHGEN-1.6M:通过多代理协作生成 1.6M 病理图文对
本文提出了 PathGen-1.6M,首个由多 agent 协作生成的超大规模高质量病理图文数据集,并基于此构建了 PathGen-CLIP 与 PathGen-LLaVA,分别在图像分类与多模态任务上大幅提升性能
2025-03-21 13:54:10
724
原创 (2025|ICLR|阿里&浙大,fVLM,双重假阴性校正)大规模细粒度视觉语言预训练增强 CT 图像理解
本文提出细粒度视觉-语言模型,用于增强 CT 影像理解。它通过解剖级对齐,提高了模型的可解释性和诊断性能。本文还提出一种方法来识别正常和异常样本的假阴性,并将对比学习从病人级扩展到基于疾病的配对。
2025-03-20 12:04:15
681
原创 (2025|ICLR|华南理工,任务对齐,缓解灾难性遗忘,底层模型冻结和训练早停)语言模型持续学习中的虚假遗忘
本文提出虚假遗忘的概念,指出性能下降主要源于任务对齐,而非知识丢失。旧任务的表现下降可以通过训练少量数据恢复,表明知识仍然保留。新任务训练初期会破坏已建立的任务对齐,使模型难以应用已存知识。通过冻结底层模型参数可以显著改善持续学习中的性能
2025-03-19 11:08:51
744
原创 (2025|ICLR|北大 & 谷歌,模型参数视为 Token,Transformer 扩展)TokenFormer
本文提出 TokenFormer,一种基于注意力机制的可扩展 Transformer 变体。通过将模型参数视为 Token,TokenFormer 可逐步扩展而无需重新训练,从而大幅降低训练成本。
2025-03-18 10:39:43
781
原创 (2025|ICLR|NVIDIA,高分辨率视觉编码器混合)EAGLE:基于混合编码器探索多模态 LLM 的设计空间
本文探索 MLLM 中混合视觉编码器的设计空间,分析不同的编码器及其组合方式。研究表明,仅通过简单的视觉 token 拼接即可获得与复杂融合策略相当的效果。此外,引入预对齐策略,可有效减少视觉编码器与语言 token 的差距,提升模型一致性
2025-03-17 10:40:12
677
原创 (2025|ICLR|Sea AI & SMU,回归模型,以小见大)RegMix:用于语言模型预训练的作为回归的数据混合
本文提出 RegMix,将数据混合问题建模为回归任务,通过训练小规模模型来预测不同数据混合的影响,从而自动选择高性能的数据组合。实验证明 RegMix 在 多种基准任务上超越了人类选择的数据混合策略。
2025-03-13 10:35:22
967
原创 (2025|ICLR|MIT,TEAL,幅度剪枝)大型语言模型的无训练激活稀疏性
本研究提出 TEAL,一种简单的、无训练的激活稀疏方法,采用基于幅度剪枝的策略,在整个模型的隐藏状态中应用稀疏化。 TEAL 可在实现 40%-50% 的全模型稀疏性的同时保持最小的性能损失。
2025-03-12 10:42:23
695
原创 (2025|ICLR|厦大&华为,LoSA,基于表示互信息的动态层级稀疏率,基于重构误差的秩分配)LLM 的动态低秩稀疏自适应
本文提出动态低秩稀疏适配,实现稀疏 LLM 与低秩适配的无缝集成。它在微调过程中动态调整稀疏率和秩,以提高稀疏 LLM 的性能而不增加推理延迟。它通过基于表示互信息的动态层级稀疏率和基于重构误差的秩分配策略实现了稀疏与低秩适配的有效融合
2025-03-11 10:28:40
801
原创 (2025|ICLR|HKBU,自适应噪声检测器 AdaND,分类器与检测器解耦,高斯噪声注入)视觉语言模型中的有噪测试时自适应
本文提出了一种新的 ZS-NTTA 方法 AdaND,通过 解耦分类器与检测器并注入高斯噪声,显著提高了测试时自适应性能,同时保持计算效率。实验表明,该方法在 ZS-NTTA 和 ZS-OOD 检测任务上均达到当前最优性能。
2025-03-10 10:25:28
597
原创 (2025|IBM,多尺度字节语言模型 MBLM,Transformer,Mamba)用于因果百万长度序列建模的分层架构
本文提出多尺度字节语言模型,其采用分层的、模型无关的解码结构,通过结合 Transformer 和 Mamba 块,可在单张 GPU 上以完整模型精度训练 5M 字节的上下文窗口。
2025-03-07 10:53:09
796
原创 (2025|AIRI,LoRA 知识集成)在 LoRA 中可装入多少知识而不损害 LLM?
本文进行 LoRA 微调,并控制新知识的数量,研究如何平衡新知识的引入与模型整体能力的保持。研究发现,混合已知与新知识的数据可获得最佳结果,但仍会导致模型在外部问答基准测试上的性能下降。
2025-03-06 10:53:35
758
原创 (2024|ACL|北大,MLeVLM,多层特征对齐)基于 MLLM 提升医学视觉问答的多层渐进能力
现有医学视觉问答模型由于数据集的不完备和架构简单,往往忽略多层次渐进能力,如识别、细节、诊断、知识和推理。为此,本文提出多层次视觉语言模型,通过构建高质量的多层次指令数据集 MLe-VQA 以及设计多层次特征对齐模块提升 MVQA 性能
2025-02-20 17:36:46
1091
原创 (2024|ACM TIMS|复旦)MOSS-MED:服务于医学图像分析的医学多模态模型
MOSS-MED 是专注于医学图像分析的 MLLM,旨在结合视觉理解和医学知识,为医学图像分析提供精准的辅助诊断和报告生成能力。通过两阶段训练流程,MOSS-MED 实现了对医学图像的精准理解,尤其在生物医学 VQA 任务中表现出色。
2025-02-20 15:35:51
833
原创 (2025|百川,Baichuan-M1,医学 LLM,从零开始渐进式训练)推动大型语言模型的医疗能力
本文提出 Baichuan-M1,使用 20T tokens,并采用多种有效的训练策略从零开始训练,专注于医学知识的深度学习,平衡通用能力和医学专业性。此外,它采用改进的 Transformer 架构,并通过渐进式训练提升模型性能。
2025-02-20 11:52:01
668
原创 (2025|DeepSeek-AI,原生稀疏注意力 / NAS,动态路径选择,硬件优化)硬件对齐且原生可训练的稀疏注意力
本文提出 NSA(原生稀疏注意力),它通过算法创新和硬件优化相结合,实现高效的长文本建模。NSA 采用动态分层稀疏策略,结合粗粒度的 token 压缩和精细粒度的 token 选择,在保留全局上下文感知的同时确保局部精度。
2025-02-19 10:24:44
1399
原创 (2024|IEEE BIBM|重邮,LVLM,PA-LLaVA,病理图像理解)用于人体病理图像理解的大型语言视觉助手
本文提出 PA-LLaVA,一个专为病理图像理解设计的大型语言-视觉助手。它采用 LVLM,通过构建高质量的病理图像-文本数据集,训练了专用的病理语言-图像预训练模型(PLIP),并设计了尺度不变的连接器以避免图像缩放导致的信息损失。
2025-02-18 16:29:04
946
原创 (2025|上海 AI Lab & 清华,LLM,测试时扩展)1B LLM 能否超越 405B LLM?
本文探讨了测试时扩展(TTS)如何通过推理阶段的额外计算提升大型语言模型(LLM)的性能,尤其分析了 策略模型、过程奖励模型(PRMs)及 问题难度 对 TTS 策略的影响。
2025-02-18 11:35:56
938
原创 (2025|西湖大学,LLM,深度诅咒,层归一化缩放)大型语言模型的深度诅咒
Pre-LN Transformer 中,输出方差随着深度呈指数增长,使得深层梯度接近单位映射,限制了表达能力。本文提出 “层归一化缩放”,通过按层深度平方根的倒数缩放归一化输出方差,显著提升了深层 Transformer 层的训练贡献
2025-02-18 09:55:56
1053
原创 (2025|剑桥 & 谷歌,扩散 / VLM 注意力分布对齐,语言-视觉指令微调 / Lavender)扩散指令微调
本文提出了一种基于扩散模型的语言-视觉指令微调方法 Lavender,通过对齐视觉-语言模型(VLM)与稳定扩散模型的注意力分布,实现了更高效的数据利用和更强的视觉-文本交互能力
2025-02-17 17:32:16
863
原创 (2025|Apple & 牛津,FLOPs / 参数量 / 数据量,监督预训练)蒸馏缩放定律
本文提出的蒸馏缩放定律为计算最优蒸馏训练提供了理论基础。研究表明,蒸馏仅在学生计算资源未超过规模依赖阈值且已有教师模型或教师具备多重用途时才比监督学习更高效。此外,本文还提供计算最优蒸馏配置的方案,支持生产高性能小模型,提高测试时缩放可行性
2025-02-17 15:49:46
557
原创 (2025|Nature Machine Intelligence|微软&剑桥,医疗影像编码器、RAD-DINO、自监督学习)
本文提出 RAD-DINO,一个 基于 DINOv2 自监督学习框架的医疗影像编码器,仅使用图像数据进行训练,在多个医学基准测试中表现出色,甚至超过了部分语言监督模型。
2025-02-17 11:51:20
1020
原创 (2024|EMNLP|港中文,多模态数据去噪和重格式化,PubMedVision 数据集,HuatuoGPT-Vision)
本文通过 MLLM 驱动的重格式化方法,从 PubMed 中提炼高质量医学视觉数据,构建了大规模的 PubMedVision 数据集,显著提升了医学 MLLM 的多模态能力,并训练了性能卓越的 HuatuoGPT-Vision 模型。
2025-02-15 11:54:54
1092
原创 (2024|ICANN|复旦,MISS,多任务自监督学习,TransCap 数据集)Med-VQA 的生成预训练和微调方法
本文提出了一个名为 MISS 的框架,以生成式任务替代传统分类任务,并通过多任务自监督学习提升性能。此外,提出了 TransCap 方法,借助 LLM 为单模态图像数据生成描述,从而扩展多模态数据集。
2025-02-14 22:07:55
1037
原创 (2024|CVPR|NUS,VLM,可解释性,SNIFFER)用于可解释的脱离语境错误信息检测的多模态大型语言模型
本文提出 SNIFFER,一种结合 MLLMs 与外部知识 的可解释脱离语境错误信息检测系统。它利用 GPT-4 生成的指令数据进行微调,并通过外部检索增强模型能力,不仅能够检测图文不一致,还能提供准确、清晰的解释
2025-02-14 16:51:23
869
原创 (2024|MICCAI|微软,DermaVQA 数据集)皮肤病学多语言视觉问答数据集
本研究提出 DermaVQA 数据集,用于皮肤病学领域的 多语言视觉问答(VQA)任务。该数据集包含皮肤科相关的 用户生成的健康问题及配套图片,并提供了多个医生的回复,以支持多模态问答研究。
2025-02-14 14:53:52
567
原创 (2024|MICCAI|复旦,PEFT,VLM,MILE)LLM 的微调方法可以在医学多模态领域发挥作用吗?
本研究探讨 PEFT 方法在医学多模态领域中的适用性。通过实验分析不同微调方法对医学 VLM 的影响,并优化模型的训练效率,以降低计算成本,促进 VLM 在医疗领域的应用。
2025-02-14 13:03:37
951
原创 (2024|EMNLP|UNC,Med-LVLM,RAG,RULE)医学视觉语言模型中用于事实性的可靠多模态 RAG
本文提出 RULE,一种适用于 Med-LVLMs 的可靠多模态 RAG 方法。RULE 优化检索内容选择,并通过 偏好微调 使模型在检索信息与自身知识之间取得平衡。该方法在三个医学数据集上取得显著提升,平均提高 47.4% 的事实准确性
2025-02-13 17:54:52
892
原创 (2025|哈佛&剑桥,MedTok,向量量化,GNN)多模态医疗编码标记器
MEDTOK 是一种统一的医学编码标记器,通过整合文本和知识图谱信息,实现更精确的医学编码表示。实验表明,MEDTOK 在多个电子健康记录任务中均表现优异,特别是在药物推荐、疾病预测和医疗问答任务上
2025-02-13 10:54:43
916
原创 (2024|CVPR|Meta,VistaLLM,图像分割,多任务 VLM)设计通用的粗到精视觉语言模型
本文提出 VistaLLM,一个通用视觉系统,能够在单图像和多图像输入的情况下,同时处理 粗粒度和细粒度的视觉-语言任务。该模型利用指令引导的图像编码器和梯度感知自适应采样技术来优化输入处理,并使用新构建的数据集(CoinIt) 进行训练
2025-02-10 12:16:08
1067
原创 (2024|CVPR|北大)超越文本:在视觉信号理解中冻结大型语言模型
本研究提出了一种无须微调的视觉信号理解方法,即 视觉到语言分词器,它将图像转换为 LLM 词汇表中的离散标记,从而使冻结的 LLM 能够直接理解视觉信号,实现图像识别、视觉问答、图像恢复(去噪、修复等)等任务。
2025-02-09 23:34:49
927
原创 (2024|ECCV|NVIDIA)Dolphins: 多模态语言模型在自动驾驶中的应用
Dolphins 是一个新型的视觉语言模型(VLM),它能够处理多模态输入(视频、图像、文本指令和历史控制信号),并结合情境指令微调和接地链式推理,提高对驾驶场景的理解和适应能力
2025-02-09 11:40:58
676
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人