GLM-4.5V-FP8:引领多模态智能新纪元,开源社区再添强援

GLM-4.5V-FP8:引领多模态智能新纪元,开源社区再添强援

【免费下载链接】GLM-4.5V-FP8 【免费下载链接】GLM-4.5V-FP8 项目地址: https://ai.gitcode.com/zai-org/GLM-4.5V-FP8

[![GLM-V系列模型标志](https://raw.githubusercontent.com/zai-org/GLM-V/refs/heads/main/resources/logo.svg)](https://link.gitcode.com/i/3c2d4b47eb0914b74907009d249987b9)
如上图所示,这是GLM-V系列模型的官方标志。该标志简洁而富有科技感,象征着该系列模型在视觉与语言融合领域的前沿探索,为开发者和研究者提供了直观的品牌识别,也代表了ZhipuAI在多模态智能领域持续创新的决心。

👋 欢迎加入我们的 Discord 社区,与全球开发者共同交流。
📖 深入了解技术细节,请查阅 学术论文
📍 通过 智谱AI开放平台,您可以轻松通过API调用GLM-V系列模型。

多模态智能的新里程碑

在当今人工智能迅猛发展的浪潮中,视觉-语言模型(VLMs)已然成为构建智能系统的核心基石。随着现实世界中AI应用场景的不断拓展与深化,传统VLMs在处理复杂任务时,逐渐显露出在基础多模态感知之外的推理能力短板。因此,如何显著提升模型的准确性、推理的全面性以及整体智能水平,以支撑复杂问题解决、长上下文理解乃至构建多模态智能体,已成为行业亟待突破的关键课题。

ZhipuAI始终秉持开放协作的理念,通过开源项目与全球开发者社区携手共进,不仅致力于探索技术前沿,更旨在赋能广大开发者,激发其创造力,开发出更多令人惊叹的创新应用。

GLM-4.5V正是这一理念的最新成果。它构建于ZhipuAI下一代旗舰级文本基础模型GLM-4.5-Air之上,该文本模型拥有1060亿参数,其中120亿为活跃参数,为GLM-4.5V提供了强大的语言理解与生成基座。GLM-4.5V延续了GLM-4.1V-Thinking的先进技术路径,并在此基础上进行了优化与创新。在42项公开的视觉-语言基准测试中,GLM-4.5V展现出了同规模模型中的卓越性能,稳居行业前列。其能力覆盖了图像理解、视频分析、文档解析等常见任务,并拓展至GUI代理操作等更具挑战性的应用场景。

GLM-4.5V在42个视觉语言基准测试中的性能表现图表 如上图所示,该图表清晰展示了GLM-4.5V在42个视觉语言基准测试中的性能表现。图表通过直观的对比数据,凸显了GLM-4.5V在同级别模型中的领先地位,充分体现了其在多模态任务处理上的强大综合实力,为用户选择和信任该模型提供了有力的数据支撑。

除了在基准测试中取得优异成绩,GLM-4.5V更着重于提升实际应用中的可用性。通过高效的混合训练策略,它能够灵活应对各种类型的视觉内容,实现了全谱系的视觉推理能力,具体包括:

  • 图像深度推理:不仅能够理解复杂场景,还能进行多图像间的关联分析与空间关系识别。
  • 视频全维度解析:支持长视频的智能分段,并能精准识别其中的关键事件与动态变化。
  • GUI智能交互:具备屏幕内容读取、图标语义理解能力,可辅助完成桌面操作任务。
  • 复杂图表与长文档处理:能够深入分析专业文档,精准提取关键信息与数据。
  • 视觉元素精确定位(Grounding):实现对图像中特定视觉元素的精确坐标定位。

该模型还创新性地引入了思考模式(Thinking Mode) 切换功能,允许用户根据实际需求,在快速响应与深度推理之间进行灵活平衡,其操作方式与GLM-4.5语言模型保持一致,确保了用户体验的连贯性。

在输出结果中,模型使用特殊标记 <|begin_of_box|><|end_of_box|> 来界定图像中答案对应的边界框。边界框信息以四个数字表示,例如 [x1, y1, x2, y2],其中 (x1, y1) 代表左上角坐标,(x2, y2) 代表右下角坐标。括号样式可能存在多种变体(如 [], [[]], (), <> 等),但其核心含义一致,均用于包裹边界框的坐标信息。这些坐标值的范围在0到1000之间,是相对于图像尺寸进行归一化处理后的结果。

如需获取更多代码实现细节与项目动态,请访问我们的代码仓库:https://link.gitcode.com/i/501225c2ab0a9910da6421f9b0ab141a

快速上手指南:轻松驾驭多模态能力

借助 transformers 库,您可以便捷地调用GLM-4.5V-FP8模型,以下是详细的使用示例:

from transformers import AutoProcessor, AutoModelForConditionalGeneration
from PIL import Image
import requests
import torch

# 加载模型与处理器
model_id = "zai-org/GLM-4.5V-FP8"
model = AutoModelForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype="auto",  # 自动选择合适的torch数据类型
    device_map="auto",   # 自动分配模型到可用设备
    trust_remote_code=True  # 信任远程代码(必要,因模型结构特殊)
)
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

# 示例图像加载(请替换为您的图像路径或URL)
image_url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = Image.open(requests.get(image_url, stream=True).raw).convert("RGB")

# 准备输入提示
prompt = "请详细描述这辆汽车的外观特征。"
messages = [
    {"role": "user", "content": [{"type": "image", "image": image}, {"type": "text", "text": prompt}]}
]

# 应用聊天模板并预处理图像
input_ids = processor.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
pixel_values = processor.preprocess_images(image, return_tensors="pt")

# 生成模型响应
with torch.no_grad():  # 禁用梯度计算,节省内存并加速推理
    output_ids = model.generate(
        input_ids.to(model.device),
        pixel_values=pixel_values.to(model.device),
        max_new_tokens=512  # 限制生成文本的最大长度
    )

response = processor.decode(output_ids[0], skip_special_tokens=True)
print(response)

在上述代码中,首先加载了预训练的模型和对应的处理器。模型会根据系统配置自动选择最优的数据类型和设备进行加载,极大简化了部署流程。接着,从指定URL加载示例图像,并构造包含图像和文本提示的多模态输入。处理器会对输入进行格式化和预处理,为模型推理做好准备。最后,调用模型的generate方法生成响应,并对输出结果进行解码以获得自然语言描述。

此示例展示了GLM-4.5V-FP8在图像描述任务上的应用,您可以根据实际需求修改提示文本和输入图像,探索模型在不同场景下的强大能力,例如图表分析、场景理解、多轮对话等。

学术引用规范

如果您在研究工作中使用了本模型,请按照以下格式引用相关论文:

@misc{vteam2025glm45vglm41vthinkingversatilemultimodal,
      title={GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning}, 
      author={V Team and Wenyi Hong and Wenmeng Yu and Xiaotao Gu and Guo Wang and Guobing Gan and Haomiao Tang and Jiale Cheng and Ji Qi and Junhui Ji and Lihang Pan and Shuaiqi Duan and Weihan Wang and Yan Wang and Yean Cheng and Zehai He and Zhe Su and Zhen Yang and Ziyang Pan and Aohan Zeng and Baoxu Wang and Bin Chen and Boyan Shi and Changyu Pang and Chenhui Zhang and Da Yin and Fan Yang and Guoqing Chen and Jiazheng Xu and Jiale Zhu and Jiali Chen and Jing Chen and Jinhao Chen and Jinghao Lin and Jinjiang Wang and Junjie Chen and Leqi Lei and Letian Gong and Leyi Pan and Mingdao Liu and Mingde Xu and Mingzhi Zhang and Qinkai Zheng and Sheng Yang and Shi Zhong and Shiyu Huang and Shuyuan Zhao and Siyan Xue and Shangqin Tu and Shengbiao Meng and Tianshu Zhang and Tianwei Luo and Tianxiang Hao and Tianyu Tong and Wenkai Li and Wei Jia and Xiao Liu and Xiaohan Zhang and Xin Lyu and Xinyue Fan and Xuancheng Huang and Yanling Wang and Yadong Xue and Yanfeng Wang and Yanzi Wang and Yifan An and Yifan Du and Yiming Shi and Yiheng Huang and Yilin Niu and Yuan Wang and Yuanchang Yue and Yuchen Li and Yutao Zhang and Yuting Wang and Yu Wang and Yuxuan Zhang and Zhao Xue and Zhenyu Hou and Zhengxiao Du and Zihan Wang and Peng Zhang and Debing Liu and Bin Xu and Juanzi Li and Minlie Huang and Yuxiao Dong and Jie Tang},
      year={2025},
      eprint={2507.01006},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.01006}, 
}

GLM-4.5V-FP8的开源发布,不仅为学术界和工业界提供了一个强大的多模态研究工具,更推动了多模态智能技术的普及进程。通过降低先进模型的使用门槛,ZhipuAI鼓励更多开发者投身于多模态应用的创新实践,共同探索AI赋能千行百业的无限可能。未来,随着社区的不断贡献和模型的持续迭代,我们有理由相信,GLM-V系列将在更广阔的领域绽放光彩,引领多模态智能迈向更实用、更普惠的新阶段。无论是智能客服、内容创作、自动驾驶还是教育培训,GLM-4.5V-FP8都将成为开发者手中的得力助手,加速智能化解决方案的落地与普及。

【免费下载链接】GLM-4.5V-FP8 【免费下载链接】GLM-4.5V-FP8 项目地址: https://ai.gitcode.com/zai-org/GLM-4.5V-FP8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值