CogVLM2系列模型:多模态理解新突破,开源生态持续升级

CogVLM2系列模型:多模态理解新突破,开源生态持续升级

【免费下载链接】cogvlm2-llama3-chinese-chat-19B 【免费下载链接】cogvlm2-llama3-chinese-chat-19B 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chinese-chat-19B

👋 欢迎加入我们的 微信交流群 💡 立即体验 CogVLM2图像理解 💡 立即体验 CogVLM2-Video视频分析 📍前往 开放平台 探索更大规模的CogVLM模型能力

最新动态

  • 🔥 重要发布2024/8/30:CogVLM2研究论文已正式上线arXiv平台,论文编号2408.16500
  • 🔥 功能更新2024/7/12:CogVLM2-Video在线演示系统已开放,用户可通过官方体验地址测试视频理解功能。
  • 🔥 模型发布2024/7/8:推出CogVLM2-Video视频理解模型,采用关键帧提取技术实现动态画面解析,支持最长60秒视频处理。更多技术细节可查阅专题博客
  • 🔥 性能优化2024/6/8:发布CogVLM2 TGI优化版本模型权重,适配Hugging Face TGI推理框架,推理效率显著提升。部署代码可参考开源仓库
  • 🔥 轻量化版本2024/6/5:发布GLM-4V-9B模型,基于CogVLM2相同训练体系,采用GLM-4-9B作为语言基座,移除视觉专家模块后模型总参数量降至13B。详细说明见GLM-4项目主页
  • 🔥 资源优化2024/5/24:推出Int4量化版本模型,显存占用低至16GB即可运行推理任务,大幅降低硬件门槛。
  • 🔥 核心发布2024/5/20:CogVLM2基础模型正式发布,基于llama3-8b架构开发,在多项评测中展现出与GPT-4V相当甚至更优的性能表现!

技术架构与优势

新一代CogVLM2系列模型基于Meta-Llama-3-8B-Instruct开源基座构建,相比上一代CogVLM模型实现四大突破:

  1. 核心指标全面提升,在TextVQA、DocVQA等权威评测中刷新开源模型纪录
  2. 文本处理能力扩展至8K上下文长度,支持长文档理解
  3. 图像分辨率支持提升至1344×1344像素,细节识别能力增强
  4. 提供原生中英文双语版本,满足多语言场景需求

模型矩阵概览

模型名称cogvlm2-llama3-chat-19Bcogvlm2-llama3-chinese-chat-19Bcogvlm2-video-llama3-chatcogvlm2-video-llama3-base
基础架构Meta-Llama-3-8B-InstructMeta-Llama-3-8B-InstructMeta-Llama-3-8B-InstructMeta-Llama-3-8B-Instruct
支持语言英文中文、英文英文英文
核心功能图像理解,多轮对话图像理解,多轮对话视频理解,单轮对话视频理解,基座模型(无对话功能)
下载地址🤗 Huggingface 🤖 ModelScope 💫 Wise Model🤗 Huggingface 🤖 ModelScope 💫 Wise Model🤗 Huggingface 🤖 ModelScope🤖 ModelScope 🤗 Huggingface
在线演示📙 Official Page📙 Official Page 🤖 ModelScope📙 Official Page 🤖 ModelScope/
量化版本🤗 Huggingface 🤖 ModelScope 💫 Wise Model🤗 Huggingface 🤖 ModelScope 💫 Wise Model//
文本处理长度8K8K2K2K
视觉输入规格1344×1344像素1344×1344像素224×224像素(视频,取前24帧)224×224像素(视频,平均采样24帧)

性能评测

图像理解能力

CogVLM2在主流多模态评测集上表现卓越,部分指标超越闭源模型。所有测试均采用纯视觉输入方式("only pixel"),未使用外部OCR工具辅助。

模型名称开源性语言模型规模TextVQADocVQAChartQAOCRbenchMMMUMMVetMMBench
CogVLM1.17B69.7-68.359037.352.065.8
LLaVA-1.513B61.3--33737.035.467.7
Mini-Gemini34B74.1---48.059.380.6
LLaVA-NeXT-LLaMA38B-78.269.5-41.7-72.1
LLaVA-NeXT-110B110B-85.779.7-49.1-80.5
InternVL-1.520B80.690.983.872046.855.482.3
QwenVL-Plus-78.991.478.172651.455.767.0
Claude3-Opus--89.380.869459.451.763.3
Gemini Pro 1.5-73.586.581.3-58.5--
GPT-4V-78.088.478.565656.867.775.0
CogVLM2-LLaMA3(本项目)8B84.292.381.075644.360.480.5
CogVLM2-LLaMA3-Chinese(本项目)8B85.088.474.778042.860.578.9

视频理解能力

CogVLM2-Video在三大视频评测基准上展现优异性能:MVBench、VideoChatGPT-Bench及零样本VideoQA数据集(MSVD-QA、MSRVTT-QA、ActivityNet-QA)。

CogVLM2-Video性能评测 上图展示了CogVLM2-Video与主流视频理解模型的性能对比。图表中VCG代表VideoChatGPTBench数据集,ZS代表零样本VideoQA任务,MV-*系列为MVBench中的主要评测类别。该对比直观呈现了CogVLM2-Video在动态场景理解任务中的技术优势,为开发者选择视频AI解决方案提供参考依据。

详细评测数据

VideoChatGPT-Bench与零样本VideoQA结果 | 模型名称 | VCG-AVG | VCG-CI | VCG-DO | VCG-CU | VCG-TU | VCG-CO | ZS-AVG | |----------------------|----------|----------|----------|----------|----------|----------|-----------| | IG-VLM GPT4V | 3.17 | 3.40 | 2.80 | 3.61 | 2.89 | 3.13 | 65.70 | | ST-LLM | 3.15 | 3.23 | 3.05 | 3.74 | 2.93 | 2.81 | 62.90 | | ShareGPT4Video | N/A | N/A | N/A | N/A | N/A | N/A | 46.50 | | VideoGPT+ | 3.28 | 3.27 | 3.18 | 3.74 | 2.83 | 3.39 | 61.20 | | VideoChat2_HD_mistral | 3.10 | 3.40 | 2.91 | 3.72 | 2.65 | 2.84 | 57.70 | | PLLaVA-34B | 3.32 | 3.60 | 3.20 | 3.90 | 2.67 | 3.25 | 68.10 | | CogVLM2-Video | 3.41 | 3.49 | 3.46 | 3.87 | 2.98 | 3.23 | 66.60 |

MVBench数据集评测结果 | 模型名称 | AVG | AA | AC | AL | AP | AS | CO | CI | EN | ER | FA | FP | MA | MC | MD | OE | OI | OS | ST | SC | UA | |----------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------|----------| | IG-VLM GPT4V | 43.7 | 72.0 | 39.0 | 40.5 | 63.5 | 55.5 | 52.0 | 11.0 | 31.0 | 59.0 | 46.5 | 4

CogVLM2系列模型通过持续的技术创新和开源实践,正在构建完整的多模态AI应用生态。无论是科研机构还是企业开发者,都能通过开源社区获取先进的视觉语言模型能力,推动多模态智能在各行各业的创新应用。未来团队将继续优化模型性能,拓展应用场景,为AI技术的普惠化发展贡献力量。

【免费下载链接】cogvlm2-llama3-chinese-chat-19B 【免费下载链接】cogvlm2-llama3-chinese-chat-19B 项目地址: https://ai.gitcode.com/zai-org/cogvlm2-llama3-chinese-chat-19B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值