智谱AI新一代多模态大模型CogVLM2震撼登场:性能逼近GPT-4V,19B参数开启开源新纪元
在多模态人工智能领域持续深耕的智谱AI,继去年成功推出并开源VisualGLM-6B与CogVLM模型后,近日正式宣布即将发布新一代重磅产品——多模态大模型CogVLM2。该模型以190亿的参数量,在综合性能上实现了对GPT-4V的逼近甚至超越,标志着国内多模态大模型技术迈入新的台阶。
据官方披露,CogVLM2系列模型在多项国际权威基准测试中展现出惊人的性能跃升。其中,在OCRbench文本识别基准上,性能较前代提升高达32%;TextVQA视觉问答任务中,成绩提升21.9%;同时,模型在文档图像理解(DocVQA)等复杂场景下也具备了显著增强的处理能力。此外,CogVLM2突破性地支持8K超长文本输入和最高1344×1344像素的图像分辨率,并且同步提供中英文双语的开源版本,极大拓宽了其应用边界。
CogVLM2在技术架构上进行了深度创新与优化。它继承了上一代模型的经典设计理念,搭载了一个拥有50亿参数的高性能视觉编码器,能够精准捕捉图像中的细节信息。更为关键的是,研发团队创新性地在大语言模型内部整合了一个70亿参数的视觉专家模块。该模块通过独特的参数调配机制,实现了视觉与语言序列交互的精细化建模,在显著增强模型视觉理解能力的同时,完美保留了其在语言处理方面的原有优势,从而达成了两种模态的深度、高效融合。
值得关注的是,尽管CogVLM2的总参数量达到190亿,但借助精心设计的多专家模块结构,实际激活的参数量仅约120亿,这一高效能设计大幅提升了模型的推理速度与运行效率。针对高分辨率图像的处理需求,CogVLM2引入了专门的降采样模块,确保在支持1344分辨率图像输入时依然保持高效的运算性能。
如上图所示,雷达图清晰呈现了CogVLM2-LLaMA3等模型在TextVQA、DocVQA、OCRbench等多模态基准测试中的表现。这一对比数据充分体现了CogVLM2在多模态任务处理上的全面优势,为开发者和研究人员选择高效模型提供了直观且有力的参考依据。
在实际测试中,CogVLM2的多个子模型尽管参数量相对较小,但在众多基准测试中均取得了当前最优(SOTA)性能;在其他任务上,其表现也已达到与GPT-4V、Gemini Pro等国际顶尖闭源模型接近的水平,展现出强大的竞争力。
为了推动技术普惠与生态建设,CogVLM2将通过多渠道向开发者开放。开发者可通过GitHub、Huggingface、魔搭社区以及始智社区获取模型资源。代码仓库地址为https://gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4。模型下载渠道包括Huggingface的huggingface.co/THUDM、魔搭社区的modelscope.cn/models/ZhipuAI以及始智社区的wisemodel.cn/models/ZhipuAI。此外,用户还可以通过Demo体验地址http://36.103.203.44:7861亲身体验模型的强大功能,技术细节可参考官方技术文档https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf。
智谱AI同时透露,即将发布的GLM新版本将深度内嵌CogVLM2的多模态能力,并计划在智谱清言App及智谱AI大模型MaaS开放平台正式上线。CogVLM2的推出,不仅为学术界和产业界提供了一个高性能、低成本的多模态研究与应用基座,更有望在智能客服、内容创作、工业质检、医疗影像分析等众多领域催生创新应用,推动人工智能技术的进一步落地与发展。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



