最强开源多模态生成模型MM-Interleaved:首创特征同步器

本文转载自机器之心,首发日期2024年2月1日

项目地址:

https://github.com/OpenGVLab/MM-Interleaved

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。

最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。

图片

论文地址:https://arxiv.org/pdf/2401.10208.pdf

项目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事,准确理解机器人操作,就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至,它还能教你做菜,陪你玩游戏,成为随时听候指挥的个人助理!话不多说,直接看效果:

轻松理解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值