智谱AI新一代多模态大模型CogVLM2震撼登场:性能逼近GPT-4V,19B参数开启开源新纪元

智谱AI新一代多模态大模型CogVLM2震撼登场:性能逼近GPT-4V,19B参数开启开源新纪元

【免费下载链接】cogvlm2-llama3-chat-19B-int4 【免费下载链接】cogvlm2-llama3-chat-19B-int4 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4

在多模态人工智能领域持续深耕的智谱AI,继去年成功推出并开源VisualGLM-6B与CogVLM模型后,近日正式宣布即将发布新一代重磅产品——多模态大模型CogVLM2。该模型以190亿的参数量,在综合性能上实现了对GPT-4V的逼近甚至超越,标志着国内多模态大模型技术迈入新的台阶。

据官方披露,CogVLM2系列模型在多项国际权威基准测试中展现出惊人的性能跃升。其中,在OCRbench文本识别基准上,性能较前代提升高达32%;TextVQA视觉问答任务中,成绩提升21.9%;同时,模型在文档图像理解(DocVQA)等复杂场景下也具备了显著增强的处理能力。此外,CogVLM2突破性地支持8K超长文本输入和最高1344×1344像素的图像分辨率,并且同步提供中英文双语的开源版本,极大拓宽了其应用边界。

CogVLM2在技术架构上进行了深度创新与优化。它继承了上一代模型的经典设计理念,搭载了一个拥有50亿参数的高性能视觉编码器,能够精准捕捉图像中的细节信息。更为关键的是,研发团队创新性地在大语言模型内部整合了一个70亿参数的视觉专家模块。该模块通过独特的参数调配机制,实现了视觉与语言序列交互的精细化建模,在显著增强模型视觉理解能力的同时,完美保留了其在语言处理方面的原有优势,从而达成了两种模态的深度、高效融合。

值得关注的是,尽管CogVLM2的总参数量达到190亿,但借助精心设计的多专家模块结构,实际激活的参数量仅约120亿,这一高效能设计大幅提升了模型的推理速度与运行效率。针对高分辨率图像的处理需求,CogVLM2引入了专门的降采样模块,确保在支持1344分辨率图像输入时依然保持高效的运算性能。

这张雷达图展示了CogVLM2-LLaMA3等多模型在TextVQA、DocVQA、OCRbench等多模态基准测试中的性能对比,突出CogVLM2的高性能表现。 如上图所示,雷达图清晰呈现了CogVLM2-LLaMA3等模型在TextVQA、DocVQA、OCRbench等多模态基准测试中的表现。这一对比数据充分体现了CogVLM2在多模态任务处理上的全面优势,为开发者和研究人员选择高效模型提供了直观且有力的参考依据。

在实际测试中,CogVLM2的多个子模型尽管参数量相对较小,但在众多基准测试中均取得了当前最优(SOTA)性能;在其他任务上,其表现也已达到与GPT-4V、Gemini Pro等国际顶尖闭源模型接近的水平,展现出强大的竞争力。

为了推动技术普惠与生态建设,CogVLM2将通过多渠道向开发者开放。开发者可通过GitHub、Huggingface、魔搭社区以及始智社区获取模型资源。代码仓库地址为https://gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4。模型下载渠道包括Huggingface的huggingface.co/THUDM、魔搭社区的modelscope.cn/models/ZhipuAI以及始智社区的wisemodel.cn/models/ZhipuAI。此外,用户还可以通过Demo体验地址http://36.103.203.44:7861亲身体验模型的强大功能,技术细节可参考官方技术文档https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf。

智谱AI同时透露,即将发布的GLM新版本将深度内嵌CogVLM2的多模态能力,并计划在智谱清言App及智谱AI大模型MaaS开放平台正式上线。CogVLM2的推出,不仅为学术界和产业界提供了一个高性能、低成本的多模态研究与应用基座,更有望在智能客服、内容创作、工业质检、医疗影像分析等众多领域催生创新应用,推动人工智能技术的进一步落地与发展。

【免费下载链接】cogvlm2-llama3-chat-19B-int4 【免费下载链接】cogvlm2-llama3-chat-19B-int4 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B-int4

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值