MiniCPM-o.cpp：让多模态大模型真正跑在端侧

最新推荐文章于 2025-09-10 20:53:15 发布

转载最新推荐文章于 2025-09-10 20:53:15 发布 · 270 阅读

CC 4.0 BY-SA版权

AI助手已提取文章相关产品：

在大模型技术快速演进的今天，越来越多的开发者希望把多模态能力（文本、语音、图像、视频）带到端侧设备上。然而，推理开销、硬件限制、实时性要求，常常成为落地应用的最大现实障碍。

360人工智能研究院冷大炜博士认为：“大模型时代，推理优化应该放到与模型训练同等重要的地位。”

带着这一思考，我们正式推出 MiniCPM-o.cpp ——360人工智能研究院在模型推理优化方向上的首个开源工作。

✦ 项目地址：https://github.com/360CVGroup/MiniCPM-o.cpp

MiniCPM-o.cpp 是一个多模态大模型的轻量级推理框架，基于ggml开发，完全用纯C/C++ 实现。它的目标很直接：让开发者在只有 8GB 显存的端侧设备上，也能跑起多模态大模型。

它的主要特性包括：

对于很多开发者来说，关键问题不是“能不能跑”，而是“能不能实时跑”。

MiniCPM-o.cpp 在 Jetson Orin Nano Super 8GB 上的测试结果表明：

这意味着它不仅是一个研究原型，而是已经经过了真实硬件验证的实用工具。

MiniCPM-o.cpp 的另一大亮点是开发体验：

举个例子，在 Python 环境下，开发者只需一条命令，就能跑通多模态推理：

python test/test_minicpmo.py --apm-path models/minicpmo-audio-encoder_Q4_K.gguf \

--vpm-path models/minicpmo-image-encoder_Q4_1.gguf \

--llm-path models/Model-7.6B-Q4_K_M.gguf \

--video-path assets/Skiing.mp4

MiniCPM-o.cpp 的能力，特别适合以下几类应用：

MiniCPM-o.cpp 并非从零开始，而是延续了社区的优秀实践：

它的定位，是在这些工具的基础上，把多模态推理能力带到端侧，填补语音、图像、视频交互的应用空白。

MiniCPM-o.cpp 把一个7.6B参数量的多模态模型，优化到只需8GB 显存就能在端侧运行，并在实际硬件上实现了实时推理。

这是我们在如何让大模型真正从“云端实验室”走向“端侧应用场景”的一次初步探索。未来，随着端侧应用需求的增长，我们期待与开发者一起，让推理优化成为大模型落地的核心力量。

您可能感兴趣的与本文相关内容