智谱AI新一代多模态大模型CogVLM2即将发布,性能逼近GPT-4V
【免费下载链接】cogvlm2-llama3-chat-19B 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B
在多模态人工智能领域持续发力的智谱AI,继去年成功推出并开源VisualGLM-6B与CogVLM模型后,近期正式宣布即将发布其新一代多模态大模型——CogVLM2。该模型凭借190亿的参数量,在综合性能上已实现对GPT-4V的接近甚至超越,标志着国内多模态大模型技术迈入新的发展阶段。
据了解,CogVLM2系列模型在多项关键评测基准中展现出令人瞩目的性能提升。其中,在OCRbench基准测试中,模型性能较以往提升了32%,显著增强了文本识别与理解能力;在TextVQA基准上,性能提升达21.9%,进一步优化了视觉问答任务的处理精度。尤为值得一提的是,CogVLM2还具备了更为强大的文档图像理解能力(DocVQA),能够高效处理各类复杂格式的文档信息。此外,该模型支持长达8K的文本输入长度和最高1344*1344的图像分辨率,并且提供中英文双语的开源模型版本,极大地拓展了其应用场景和适用范围。
在技术架构方面,CogVLM2继承并优化了上一代模型的经典设计,采用了一个拥有50亿参数的高性能视觉编码器。同时,模型创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数配置方式,能够精细地建模视觉与语言序列之间的交互关系,在显著增强模型视觉理解能力的同时,有效避免了对原有语言处理能力的削弱。这种深度融合的技术策略,使得视觉模态与语言模态能够实现更紧密、更高效的协同工作。
值得关注的是,尽管CogVLM2的总参数量达到190亿,但通过精心设计的多专家模块结构,其实际激活的参数量仅约为120亿,这一设计显著提高了模型的推理效率,降低了计算资源消耗。此外,CogVLM2针对高分辨率图像输入进行了专项优化,引入了专门的降采样模块,进一步提升了对1344分辨率图像的处理效率和效果。在多模态基准测试中,CogVLM2的多个模型变体在保持较小模型尺寸的情况下,仍在多个权威基准中取得了 state-of-the-art(SOTA)的性能表现;在其他多项性能指标上,也达到了与GPT-4V、Gemini Pro等国际领先闭源模型相近的水平。
为了方便开发者使用和探索,智谱AI将提供丰富的获取和体验渠道。开发者可以通过GitHub、Huggingface、魔搭社区以及始智社区等平台下载CogVLM2模型。团队同时透露,未来GLM新版本将内嵌CogVLM2的能力,并在智谱清言App和智谱AI大模型MaaS开放平台正式上线。代码仓库可访问GitHub:https://github.com/THUDM/CogVLM2 进行获取;模型下载可通过Huggingface(huggingface.co/THUDM)、魔搭社区(modelscope.cn/models/ZhipuAI)、始智社区(wisemodel.cn/models/ZhipuAI)等平台;用户还可以通过Demo体验地址(http://36.103.203.44:7861)提前感受模型功能;更多技术细节可参考CogVLM2技术文档(https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf)。
CogVLM2的推出,不仅展示了智谱AI在多模态大模型领域的技术实力和创新能力,也为广大开发者和企业提供了一个高性能、高效率且开源的多模态解决方案。随着该模型的开源和普及,预计将在智能客服、内容创作、视觉分析、文档理解等众多领域催生更多创新应用,推动多模态人工智能技术在产业界的进一步落地与发展。
【免费下载链接】cogvlm2-llama3-chat-19B 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chat-19B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



