智谱AI新一代多模态大模型CogVLM2震撼登场：性能逼近GPT-4V，19B参数开启开源新纪元-优快云博客

智谱AI新一代多模态大模型CogVLM2震撼登场：性能逼近GPT-4V，19B参数开启开源新纪元

【免费下载链接】cogvlm2-llama3-chat-19B-int4 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4

在多模态人工智能领域持续深耕的智谱AI，继去年成功推出并开源VisualGLM-6B与CogVLM模型后，近日正式宣布即将发布新一代重磅产品——多模态大模型CogVLM2。该模型以190亿的参数量，在综合性能上实现了对GPT-4V的逼近甚至超越，标志着国内多模态大模型技术迈入新的台阶。

据官方披露，CogVLM2系列模型在多项国际权威基准测试中展现出惊人的性能跃升。其中，在OCRbench文本识别基准上，性能较前代提升高达32%；TextVQA视觉问答任务中，成绩提升21.9%；同时，模型在文档图像理解（DocVQA）等复杂场景下也具备了显著增强的处理能力。此外，CogVLM2突破性地支持8K超长文本输入和最高1344×1344像素的图像分辨率，并且同步提供中英文双语的开源版本，极大拓宽了其应用边界。

CogVLM2在技术架构上进行了深度创新与优化。它继承了上一代模型的经典设计理念，搭载了一个拥有50亿参数的高性能视觉编码器，能够精准捕捉图像中的细节信息。更为关键的是，研发团队创新性地在大语言模型内部整合了一个70亿参数的视觉专家模块。该模块通过独特的参数调配机制，实现了视觉与语言序列交互的精细化建模，在显著增强模型视觉理解能力的同时，完美保留了其在语言处理方面的原有优势，从而达成了两种模态的深度、高效融合。

值得关注的是，尽管CogVLM2的总参数量达到190亿，但借助精心设计的多专家模块结构，实际激活的参数量仅约120亿，这一高效能设计大幅提升了模型的推理速度与运行效率。针对高分辨率图像的处理需求，CogVLM2引入了专门的降采样模块，确保在支持1344分辨率图像输入时依然保持高效的运算性能。

如上图所示，雷达图清晰呈现了CogVLM2-LLaMA3等模型在TextVQA、DocVQA、OCRbench等多模态基准测试中的表现。这一对比数据充分体现了CogVLM2在多模态任务处理上的全面优势，为开发者和研究人员选择高效模型提供了直观且有力的参考依据。

在实际测试中，CogVLM2的多个子模型尽管参数量相对较小，但在众多基准测试中均取得了当前最优（SOTA）性能；在其他任务上，其表现也已达到与GPT-4V、Gemini Pro等国际顶尖闭源模型接近的水平，展现出强大的竞争力。

为了推动技术普惠与生态建设，CogVLM2将通过多渠道向开发者开放。开发者可通过GitHub、Huggingface、魔搭社区以及始智社区获取模型资源。代码仓库地址为https://gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4。模型下载渠道包括Huggingface的huggingface.co/THUDM、魔搭社区的modelscope.cn/models/ZhipuAI以及始智社区的wisemodel.cn/models/ZhipuAI。此外，用户还可以通过Demo体验地址http://36.103.203.44:7861亲身体验模型的强大功能，技术细节可参考官方技术文档https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf。

智谱AI同时透露，即将发布的GLM新版本将深度内嵌CogVLM2的多模态能力，并计划在智谱清言App及智谱AI大模型MaaS开放平台正式上线。CogVLM2的推出，不仅为学术界和产业界提供了一个高性能、低成本的多模态研究与应用基座，更有望在智能客服、内容创作、工业质检、医疗影像分析等众多领域催生创新应用，推动人工智能技术的进一步落地与发展。

【免费下载链接】cogvlm2-llama3-chat-19B-int4 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考