
自 5 月 18 日发布并开源 VisualGLM-6B 以来,智谱AI&清华KEG潜心打磨,致力于开发更加强大的多模态大模型。
基于对视觉和语言信息之间融合的理解,我们提出了一种新的视觉语言基础模型 CogVLM。CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。
我们训练的 CogVLM-17B 是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。

我们可以初步体验 CogVLM 的效果:

在上图中,CogVLM 能够准确识别出 4 个房子(3个完整可见,1个只有放大才能看到);作为对比,GPT-4V 仅能识别出其中的 3 个。
为促进多模态基础模型领域的研究和工业应用,我们将 CogVLM-17B 开源出来,且提供了单台 3090 服务器即可运行的微调代码,供大家研究和使用。
Github:

智谱AI与清华KEG发布CogVLM-17B,通过视觉优先策略和11B参数的视觉编码器,提升视觉语言融合能力,多项基准测试取得SOTA。模型开源并提供微调代码,推动多模态研究和应用的发展。
最低0.47元/天 解锁文章





