
论文笔记
文章平均质量分 94
EDPJ,公众号(EDPJ)
这个作者很懒,什么都没留下…
展开
-
(2025|HKUST & JHU,MeWM,VLM,疾病演化模拟,治疗策略优化)医学世界模型:用于治疗计划的肿瘤演化生成模拟
本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法原创 2025-06-05 14:22:05 · 705 阅读 · 0 评论 -
(2025|Meta & NYU,视觉 SSL,模型和数据扩展,仅图像 ViT 训练)扩展无语言视觉表征学习
本文探讨视觉自监督学习在无语言监督情况下能否与 CLIP 等语言监督方法在多模态任务上相抗衡。研究表明,随着模型规模的扩大,尤其是训练样本数量的增加,视觉模型能够学到与语言相关的特征,并在无需显式语言监督情况下,与 LLM 和多模态任务对齐原创 2025-06-04 10:08:07 · 878 阅读 · 0 评论 -
(2025|TMLR|FAR AI & NYU & Stability AI & 谷歌)逆扩展:更大并不一定更好
本文首次系统识别并分析了 11 种表现出“逆扩展”的任务,提出了 4 类成因并构建评估基准,揭示了 “扩展定律” 并非普适真理。未来 LM 发展中,亟需在任务设计、训练目标、few-shot 示例选择等方面做出改进。原创 2025-06-02 09:56:26 · 763 阅读 · 0 评论 -
(2025|NVIDIA,NAS,蒸馏,持续预训练,SFT,RLHF,聊天与推理)Llama-Nemotron:高效推理模型
Llama-Nemotron 是开源异构推理模型系列,主打高推理能力与高推理效率。它通过推理开关机制,支持在聊天与推理模式间切换。该模型系列基于 Llama 3 系列,通过神经架构搜索、知识蒸馏、持续预训练、监督微调与强化学习五阶段完成训练原创 2025-05-11 11:53:10 · 1000 阅读 · 0 评论 -
(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述
本文介绍了文本到图像生成的四个基础模型架构(自回归,非自回归,GAN 和 Diffusion)以及常用的关键技术(自编码器,注意力和无分类器引导 )。原创 2025-05-07 14:34:54 · 980 阅读 · 0 评论 -
(2025|字节,RL,MoE,数学/科学推理,编程)Seed-Thinking-v1.5:利用强化学习推进卓越推理模型
本文提出了推理模型 Seed-Thinking-v1.5,采用 MoE 架构,使用强化学习提升思考能力。该模型在数学、编程和科学任务中表现出色。原创 2025-05-06 09:54:35 · 673 阅读 · 0 评论 -
(2025|字节,VAE,DiT,多阶段训练,并行,蒸馏,内核融合)Seaweed-7B:经济高效的视频生成基础模型训练
Seaweed-7B 是一个具备约 7B 参数的中型视频生成基础模型,展示了中等规模模型在视频生成中的巨大潜力,其高效的数据处理、模型设计和优化策略使其在有限资源下依然具备极强的通用性与生成能力。原创 2025-04-24 23:45:53 · 1010 阅读 · 0 评论 -
(2025|Numina & Kimi,Lean 4 定理证明)Kimina-Prover 预览:面向强化学习的大型正式推理模型
本文提出 Kimina-Prover Preview,一种在 Lean 4 证明助理中进行正式定理证明的大型语言模型。该模型基于 Qwen2.5-72B,通过大规模强化学习训练,采用正式推理模式的结构化策略,使其能够模拟人类解题过程。原创 2025-04-23 17:51:36 · 761 阅读 · 0 评论 -
(2025|字节,混合分辨率训练,跨模态 RoPE,SeedEdit,图像生成和编辑,VLM)Seedream 3.0 技术报告
Seedream 3.0 是一个中英双语图像生成基础模型,相较于 2.0,它采用了从数据构建到模型推理的系统性优化:数据量翻倍,结合图像分布与语义平衡的采样策略;引入混合分辨率训练、跨模态 RoPE、表示对齐损失与分辨率感知的时间步采样原创 2025-04-23 17:45:05 · 915 阅读 · 0 评论 -
(2025|字节,ByT5,DiT,LLM,SFT,RLHF,RoPE)Seedream 2.0:中英双语图像生成基础模型
Seedream 2.0 是中英双语的文本生成图像基础模型,它整合自研双语大模型作为文本编码器,融合 ByT5 字符级建模及多阶段优化策略(包括监督微调和 RLHF),展现出在中英文提示理解、美学质量、结构正确性和文本渲染方面的优越性能原创 2025-04-23 15:38:22 · 1070 阅读 · 0 评论 -
(2025|Kimi,MoE,长 CoT,RL,MoonViT)Kimi-VL 技术报告
Kimi-VL 是一款在多模态与纯文本预训练/微调之间实现平衡的视觉语言模型,基于 MoE 架构,兼具扩展性与效率。Kimi-VL 在多模态、长上下文和高分辨率任务中表现出强大的适应性与效率,具有良好的研究与产业应用前景。原创 2025-04-14 13:16:48 · 1138 阅读 · 0 评论 -
(2025|ICLR|NUS & 阿里,DyDiT,输入无关,时间步动态宽度,空间动态 Token)动态 DiT
本文提出 DyDiT,一种可在时间和空间维度动态调整计算资源的架构。在时间维度上,引入 时间步动态宽度,使模型根据扩散时间步动态调整网络宽度;在空间维度上,提出空间动态 Token,跳过对预测难度低的图像区域的冗余计算原创 2025-04-04 13:18:36 · 681 阅读 · 0 评论 -
(2025|阿里,DiT,时空 VAE,多模态(文本,图像,视频,音频)生成)Wan:开放且先进的大规模视频生成模型
本文详细介绍基础视频生成模型 Wan 的 Wan-VAE 与 DiT 架构设计、训练流程、数据构建与评估方法;深入探索了多个下游应用,如图像生成视频、视频编辑、个性化生成,展现出 Wan 的广泛适应性原创 2025-03-31 14:33:58 · 1471 阅读 · 0 评论 -
(2025|Qwen Team,多模态,TMRoPE,Thinker-Talker)Qwen2.5-Omni 技术报告
本文提出了 Qwen2.5-Omni,一种端到端多模态模型,通过 Thinker-Talker 架构和 TMRoPE 位置嵌入,能够同时处理文本、图像、音频和视频,并以流式方式生成文本和自然语音响应。为实现多模态信息的实时流式输入,音频和视觉编码器均采用分块处理,以分担长序列数据的感知和处理任务。原创 2025-03-28 12:38:43 · 1028 阅读 · 0 评论 -
(2025|DeepMind,多模态,长上下文,多语言,交错的注意力,量化,蒸馏,高分辨率)Gemma 3 技术报告
本文介绍了 Gemma 开源语言模型家族的最新版本 Gemma 3,主打轻量级、通用性强。与前代相比,Gemma 3 引入三大新能力:多模态理解(尤其是图像)、更长的上下文处理能力(最多支持 128K token)、增强的多语言支持。原创 2025-03-27 12:10:01 · 974 阅读 · 0 评论 -
(2025|DeepSeek,增强的 Janus)Janus-Pro:通过数据和模型扩展实现统一的多模态理解和生成
本文提出 Janus 的增强版本 Janus-Pro,旨在提升多模态理解和文本生成图像的能力。Janus-Pro 在三个维度上进行改进:训练策略、数据扩展和模型规模扩展。Janus-Pro 在多个基准任务中取得领先成绩,验证了其方法的有效性原创 2025-03-26 11:29:30 · 1062 阅读 · 0 评论 -
(2024|DeepSeek,为理解与生成设计独立的视觉编码路径)Janus:解耦视觉编码以实现统一的多模态理解和生成
本文提出了 Janus,一个通过视觉编码器解耦的统一多模态框架。Janus 分别为理解与生成任务设计独立的视觉编码路径,并使用统一的 Transformer 处理输入,从而缓解任务间冲突,提升灵活性。原创 2025-03-25 12:55:35 · 1154 阅读 · 0 评论 -
(2025|NVIDIA,监督微调,强化学习,LLaVA,Mamba)Cosmos-Reason1: 从物理常识到具身推理的探索
本文提出了 Cosmos-Reason1 系列多模态大语言模型,专注于提升物理人工智能系统在物理常识与具身推理方面的能力。模型能够通过对视频等视觉输入的理解,结合长链式思维过程,在自然语言中做出符合物理逻辑的推理与决策。原创 2025-03-23 12:48:03 · 823 阅读 · 0 评论 -
(2025|NVIDIA,DiT,ControlNet)Cosmos-Transfer1:具有自适应多模态控制的条件世界生成
Cosmos-Transfer1 是一种具备自适应多模态控制能力的扩散模型,可用于高质量、可控的世界视频生成。其引入的控制分支与时空控制图机制提供了灵活性与精度的平衡。原创 2025-03-22 12:40:34 · 1152 阅读 · 0 评论 -
(2025|ICLR|浙大&西湖大学,LLaVA,CLIP)PATHGEN-1.6M:通过多代理协作生成 1.6M 病理图文对
本文提出了 PathGen-1.6M,首个由多 agent 协作生成的超大规模高质量病理图文数据集,并基于此构建了 PathGen-CLIP 与 PathGen-LLaVA,分别在图像分类与多模态任务上大幅提升性能原创 2025-03-21 13:54:10 · 863 阅读 · 0 评论 -
(2025|ICLR|阿里&浙大,fVLM,双重假阴性校正)大规模细粒度视觉语言预训练增强 CT 图像理解
本文提出细粒度视觉-语言模型,用于增强 CT 影像理解。它通过解剖级对齐,提高了模型的可解释性和诊断性能。本文还提出一种方法来识别正常和异常样本的假阴性,并将对比学习从病人级扩展到基于疾病的配对。原创 2025-03-20 12:04:15 · 954 阅读 · 0 评论 -
(2025|ICLR|华南理工,任务对齐,缓解灾难性遗忘,底层模型冻结和训练早停)语言模型持续学习中的虚假遗忘
本文提出虚假遗忘的概念,指出性能下降主要源于任务对齐,而非知识丢失。旧任务的表现下降可以通过训练少量数据恢复,表明知识仍然保留。新任务训练初期会破坏已建立的任务对齐,使模型难以应用已存知识。通过冻结底层模型参数可以显著改善持续学习中的性能原创 2025-03-19 11:08:51 · 882 阅读 · 0 评论 -
(2025|ICLR|北大 & 谷歌,模型参数视为 Token,Transformer 扩展)TokenFormer
本文提出 TokenFormer,一种基于注意力机制的可扩展 Transformer 变体。通过将模型参数视为 Token,TokenFormer 可逐步扩展而无需重新训练,从而大幅降低训练成本。原创 2025-03-18 10:39:43 · 972 阅读 · 0 评论 -
(2025|ICLR|NVIDIA,高分辨率视觉编码器混合)EAGLE:基于混合编码器探索多模态 LLM 的设计空间
本文探索 MLLM 中混合视觉编码器的设计空间,分析不同的编码器及其组合方式。研究表明,仅通过简单的视觉 token 拼接即可获得与复杂融合策略相当的效果。此外,引入预对齐策略,可有效减少视觉编码器与语言 token 的差距,提升模型一致性原创 2025-03-17 10:40:12 · 791 阅读 · 0 评论 -
(2025|ICLR|Sea AI & SMU,回归模型,以小见大)RegMix:用于语言模型预训练的作为回归的数据混合
本文提出 RegMix,将数据混合问题建模为回归任务,通过训练小规模模型来预测不同数据混合的影响,从而自动选择高性能的数据组合。实验证明 RegMix 在 多种基准任务上超越了人类选择的数据混合策略。原创 2025-03-13 10:35:22 · 1054 阅读 · 0 评论 -
(2025|ICLR|MIT,TEAL,幅度剪枝)大型语言模型的无训练激活稀疏性
本研究提出 TEAL,一种简单的、无训练的激活稀疏方法,采用基于幅度剪枝的策略,在整个模型的隐藏状态中应用稀疏化。 TEAL 可在实现 40%-50% 的全模型稀疏性的同时保持最小的性能损失。原创 2025-03-12 10:42:23 · 858 阅读 · 0 评论 -
(2025|ICLR|厦大&华为,LoSA,基于表示互信息的动态层级稀疏率,基于重构误差的秩分配)LLM 的动态低秩稀疏自适应
本文提出动态低秩稀疏适配,实现稀疏 LLM 与低秩适配的无缝集成。它在微调过程中动态调整稀疏率和秩,以提高稀疏 LLM 的性能而不增加推理延迟。它通过基于表示互信息的动态层级稀疏率和基于重构误差的秩分配策略实现了稀疏与低秩适配的有效融合原创 2025-03-11 10:28:40 · 968 阅读 · 0 评论 -
(2025|IBM,多尺度字节语言模型 MBLM,Transformer,Mamba)用于因果百万长度序列建模的分层架构
本文提出多尺度字节语言模型,其采用分层的、模型无关的解码结构,通过结合 Transformer 和 Mamba 块,可在单张 GPU 上以完整模型精度训练 5M 字节的上下文窗口。原创 2025-03-07 10:53:09 · 891 阅读 · 0 评论 -
(2025|ICLR|HKBU,自适应噪声检测器 AdaND,分类器与检测器解耦,高斯噪声注入)视觉语言模型中的有噪测试时自适应
本文提出了一种新的 ZS-NTTA 方法 AdaND,通过 解耦分类器与检测器并注入高斯噪声,显著提高了测试时自适应性能,同时保持计算效率。实验表明,该方法在 ZS-NTTA 和 ZS-OOD 检测任务上均达到当前最优性能。原创 2025-03-10 10:25:28 · 688 阅读 · 0 评论 -
(2025|AIRI,LoRA 知识集成)在 LoRA 中可装入多少知识而不损害 LLM?
本文进行 LoRA 微调,并控制新知识的数量,研究如何平衡新知识的引入与模型整体能力的保持。研究发现,混合已知与新知识的数据可获得最佳结果,但仍会导致模型在外部问答基准测试上的性能下降。原创 2025-03-06 10:53:35 · 872 阅读 · 0 评论 -
(2024|ACL|北大,MLeVLM,多层特征对齐)基于 MLLM 提升医学视觉问答的多层渐进能力
现有医学视觉问答模型由于数据集的不完备和架构简单,往往忽略多层次渐进能力,如识别、细节、诊断、知识和推理。为此,本文提出多层次视觉语言模型,通过构建高质量的多层次指令数据集 MLe-VQA 以及设计多层次特征对齐模块提升 MVQA 性能原创 2025-02-20 17:36:46 · 1176 阅读 · 0 评论 -
(2024|ACM TIMS|复旦)MOSS-MED:服务于医学图像分析的医学多模态模型
MOSS-MED 是专注于医学图像分析的 MLLM,旨在结合视觉理解和医学知识,为医学图像分析提供精准的辅助诊断和报告生成能力。通过两阶段训练流程,MOSS-MED 实现了对医学图像的精准理解,尤其在生物医学 VQA 任务中表现出色。原创 2025-02-20 15:35:51 · 897 阅读 · 0 评论 -
(2025|百川,Baichuan-M1,医学 LLM,从零开始渐进式训练)推动大型语言模型的医疗能力
本文提出 Baichuan-M1,使用 20T tokens,并采用多种有效的训练策略从零开始训练,专注于医学知识的深度学习,平衡通用能力和医学专业性。此外,它采用改进的 Transformer 架构,并通过渐进式训练提升模型性能。原创 2025-02-20 11:52:01 · 789 阅读 · 0 评论 -
(2025|DeepSeek-AI,原生稀疏注意力 / NAS,动态路径选择,硬件优化)硬件对齐且原生可训练的稀疏注意力
本文提出 NSA(原生稀疏注意力),它通过算法创新和硬件优化相结合,实现高效的长文本建模。NSA 采用动态分层稀疏策略,结合粗粒度的 token 压缩和精细粒度的 token 选择,在保留全局上下文感知的同时确保局部精度。原创 2025-02-19 10:24:44 · 1641 阅读 · 0 评论 -
(2024|IEEE BIBM|重邮,LVLM,PA-LLaVA,病理图像理解)用于人体病理图像理解的大型语言视觉助手
本文提出 PA-LLaVA,一个专为病理图像理解设计的大型语言-视觉助手。它采用 LVLM,通过构建高质量的病理图像-文本数据集,训练了专用的病理语言-图像预训练模型(PLIP),并设计了尺度不变的连接器以避免图像缩放导致的信息损失。原创 2025-02-18 16:29:04 · 1037 阅读 · 0 评论 -
(2025|上海 AI Lab & 清华,LLM,测试时扩展)1B LLM 能否超越 405B LLM?
本文探讨了测试时扩展(TTS)如何通过推理阶段的额外计算提升大型语言模型(LLM)的性能,尤其分析了 策略模型、过程奖励模型(PRMs)及 问题难度 对 TTS 策略的影响。原创 2025-02-18 11:35:56 · 1015 阅读 · 0 评论 -
(2025|西湖大学,LLM,深度诅咒,层归一化缩放)大型语言模型的深度诅咒
Pre-LN Transformer 中,输出方差随着深度呈指数增长,使得深层梯度接近单位映射,限制了表达能力。本文提出 “层归一化缩放”,通过按层深度平方根的倒数缩放归一化输出方差,显著提升了深层 Transformer 层的训练贡献原创 2025-02-18 09:55:56 · 1124 阅读 · 0 评论 -
(2025|剑桥 & 谷歌,扩散 / VLM 注意力分布对齐,语言-视觉指令微调 / Lavender)扩散指令微调
本文提出了一种基于扩散模型的语言-视觉指令微调方法 Lavender,通过对齐视觉-语言模型(VLM)与稳定扩散模型的注意力分布,实现了更高效的数据利用和更强的视觉-文本交互能力原创 2025-02-17 17:32:16 · 976 阅读 · 0 评论 -
(2025|Apple & 牛津,FLOPs / 参数量 / 数据量,监督预训练)蒸馏缩放定律
本文提出的蒸馏缩放定律为计算最优蒸馏训练提供了理论基础。研究表明,蒸馏仅在学生计算资源未超过规模依赖阈值且已有教师模型或教师具备多重用途时才比监督学习更高效。此外,本文还提供计算最优蒸馏配置的方案,支持生产高性能小模型,提高测试时缩放可行性原创 2025-02-17 15:49:46 · 591 阅读 · 0 评论 -
(2025|Nature Machine Intelligence|微软&剑桥,医疗影像编码器、RAD-DINO、自监督学习)
本文提出 RAD-DINO,一个 基于 DINOv2 自监督学习框架的医疗影像编码器,仅使用图像数据进行训练,在多个医学基准测试中表现出色,甚至超过了部分语言监督模型。原创 2025-02-17 11:51:20 · 1144 阅读 · 0 评论