
多模态大语言模型
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。原创 2025-03-17 20:45:27 · 1249 阅读 · 0 评论 -
颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。原创 2025-03-10 07:40:44 · 709 阅读 · 0 评论