
多模态学习(Multimodal Learning)
文章平均质量分 93
Multimodal Learning
EAI2
Embodied AI for Everyone's AI
大模型和具身智能前沿进展和论文分享
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[EAI-034] 通过在线强化学习改进VLA模型
本文探讨了如何通过强化学习 (RL)——一种常用的大型模型微调技术——进一步改进这些 VLA 模型。然而,将在线 RL 直接应用于 VLA 模型会带来重大挑战,包括训练不稳定性(严重影响大型模型的性能)和计算负担(超过大多数本地机器的能力)。为了应对这些挑战,提出了 iRe-VLA 框架,该框架在RL和监督学习之间迭代,有效地改进 VLA 模型,利用 RL 的探索优势,同时保持监督学习的稳定性。原创 2025-02-09 20:38:52 · 1585 阅读 · 0 评论 -
[EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究
本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。原创 2025-02-09 00:56:15 · 1358 阅读 · 0 评论 -
[EAI-031] DeepSeek 的 Janus-Pro,统一的多模态理解和生成模型
本文介绍了Janus-Pro,它融合了:1) 优化的训练策略,2) 扩展的训练数据,3) 更大模型参数。Janus-Pro在多模态理解和文本到图像(T2I)指令遵从能力提升显著,同时还增强了文本到图像生成的稳定性。原创 2025-02-04 13:44:56 · 2275 阅读 · 0 评论 -
[EAI-030] DeepSeek 的 Janus,统一的多模态理解和生成模型
本文介绍了统一多模态理解和生成的自回归框架 Janus。以前的研究(例如 Chameleon)通常依赖于单个视觉编码器来完成这两个任务。 然而,由于多模态理解和生成所需的信息粒度(information granularity)不同,这种方法会导致性能下降,尤其是在多模态理解。 为了解决这个问题,将视觉编码解耦成独立的路径,同时仍然利用单个统一的 Transformer 架构进行处理。原创 2025-02-04 13:44:12 · 958 阅读 · 0 评论 -
[EAI 001] 具身智能经典工作 PaLM-E,基于图文VLM的具身VQA任务推理模型
提出了具身语言模型,将真实世界的连续的传感器模态直接纳入语言模型,从而建立词语与感知之间的联系。模型的输入是多模态句子,这些句子交错了视觉、连续状态估计和文本输入编码。原创 2023-10-15 21:23:35 · 2025 阅读 · 0 评论 -
【MMML】多模态机器学习高被引综述论文笔记
论文年份:TPAMI 2018,论文被引:1266(2022/04/09)原创 2022-04-09 12:12:45 · 5176 阅读 · 0 评论