本文转载自机器之心,首发日期2024年2月1日
项目地址:
https://github.com/OpenGVLab/MM-Interleaved
过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。
想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。
最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。

论文地址:https://arxiv.org/pdf/2401.10208.pdf
项目地址:https://github.com/OpenGVLab/MM-Interleaved
模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain
MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事,准确理解机器人操作,就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至,它还能教你做菜,陪你玩游戏,成为随时听候指挥的个人助理!话不多说,直接看效果:
轻松理解复杂多模态上下文
MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



