在大模型技术快速演进的今天,越来越多的开发者希望把多模态能力(文本、语音、图像、视频)带到端侧设备上。然而,推理开销、硬件限制、实时性要求,常常成为落地应用的最大现实障碍。
360人工智能研究院冷大炜博士认为:“大模型时代,推理优化应该放到与模型训练同等重要的地位。”
带着这一思考,我们正式推出 MiniCPM-o.cpp ——360人工智能研究院在模型推理优化方向上的首个开源工作。
✦ 项目地址:https://github.com/360CVGroup/MiniCPM-o.cpp
为什么是 MiniCPM-o.cpp?
MiniCPM-o.cpp 是一个多模态大模型的轻量级推理框架,基于ggml开发,完全用纯C/C++ 实现。它的目标很直接:让开发者在只有 8GB 显存的端侧设备上,也能跑起多模态大模型。
它的主要特性包括:
轻量高效:无需依赖重量级框架,即可完成推理。
低硬件门槛:8GB 显存即可运行,不再需要昂贵 GPU。
多模态支持:同时处理音频和视频输入,支持流式推理。
端侧优化:针对 NVIDIA Jetson Orin Nano 8GB 做了专门适配,满足实时对话要求。
易于集成:提供 Python binding、C++ 接口,以及 WebUI demo,覆盖从实验到产品化的完整链路。
真正的端侧落地
对于很多开发者来说,关键问题不是“能不能跑”,而是“能不能实时跑”。
MiniCPM-o.cpp 在 Jetson Orin Nano Super 8GB 上的测试结果表明:
在 MAXN SUPER mode 下,模型能够实现 实时视频流推理;
无需额外加速手段,首 token 延迟和整体推理速度完全满足交互式应用需求。
这意味着它不仅是一个研究原型,而是已经经过了真实硬件验证的实用工具。
开发者友好的设计
MiniCPM-o.cpp 的另一大亮点是开发体验:
安装简单:几步即可完成环境配置;
模型准备方便:直接使用量化后的gguf模型,降低存储与加载开销;
上手即用:提供完整的Python示例脚本与WebUI demo,开发者可以快速体验;
灵活集成:底层 C++ 接口保证了性能与可定制性,适合嵌入式与高性能场景。
举个例子,在 Python 环境下,开发者只需一条命令,就能跑通多模态推理:
python test/test_minicpmo.py --apm-path models/minicpmo-audio-encoder_Q4_K.gguf \
--vpm-path models/minicpmo-image-encoder_Q4_1.gguf \
--llm-path models/Model-7.6B-Q4_K_M.gguf \
--video-path assets/Skiing.mp4
面向开发者的应用场景
MiniCPM-o.cpp 的能力,特别适合以下几类应用:
智能硬件:智能摄像头、机器人、车载系统中的多模态交互。
边缘计算:在低功耗、低带宽的环境下实现实时语音/视频理解。
快速原型开发:借助 Python binding 和 WebUI,快速搭建实验环境和应用原型。
站在生态的肩膀上
MiniCPM-o.cpp 并非从零开始,而是延续了社区的优秀实践:
llama.cpp:轻量化 LLM 推理
whisper.cpp:端侧语音识别
transformers:主流大模型训练/推理框架
它的定位,是在这些工具的基础上,把多模态推理能力带到端侧,填补语音、图像、视频交互的应用空白。
开源与未来
代码遵循Apache 2.0 License,可自由使用与二次开发。
模型需遵守官方许可,确保合规应用。
MiniCPM-o.cpp 把一个7.6B参数量的多模态模型,优化到只需8GB 显存就能在端侧运行,并在实际硬件上实现了实时推理。
这是我们在如何让大模型真正从“云端实验室”走向“端侧应用场景”的一次初步探索。未来,随着端侧应用需求的增长,我们期待与开发者一起,让推理优化成为大模型落地的核心力量。
4735

被折叠的 条评论
为什么被折叠?



