MiniCPM-o.cpp 软件架构分析

原创已于 2025-12-18 16:11:13 修改 · 696 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#llama

于 2025-12-18 16:08:53 首次发布

Llama-o.cpp 同时被 2 个专栏收录

4 篇文章

订阅专栏

4 篇文章

订阅专栏

团队博客: 汽车电子社区

1. 项目整体架构

MiniCPM-o.cpp 是一个多模态大语言模型（LLM）的C++实现，支持文本、图像、音频的统一处理和生成。

1.1 核心架构设计

┌─────────────────────────────────────────────────────────────┐
│                    MiniCPM-o.cpp 系统架构                    │
├─────────────────────────────────────────────────────────────┤
│  Application Layer (应用层)                                  │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐ │
│  │   CLI Example   │  │  Web Demos      │  │  Python API     │ │
│  │   (cli.cpp)     │  │  (web_demos/)   │  │  (pybind)       │ │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘ │
├─────────────────────────────────────────────────────────────┤
│  Core Processing Layer (核心处理层)                           │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │                MiniCPMO Core Class                      │ │
│  │  ┌─────────────┐  ┌─────────────┐  ┌─────────────────┐   │ │
│  │  │ Vision      │  │ Audio       │  │ Text            │   │ │
│  │  │ Processing  │  │ Processing  │  │ Processing      │   │ │
│  │  │ (Siglip)    │  │ (Whisper)   │  │ (LLaMA)         │   │ │
│  │  └─────────────┘  └─────────────┘  └─────────────────┘   │ │
│  └─────────────────────────────────────────────────────────┘ │
│  ┌─────────────────────────────────────────────────────────┐ │
│  │                TTS Module (Outetts)                      │ │
│  └─────────────────────────────────────────────────────────┘ │
├─────────────────────────────────────────────────────────────┤
│  Infrastructure Layer (基础设施层)                            │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐   │
│  │    GGML     │  │   LLaMA.cpp │  │    Utilities       │   │
│  │ Computing   │  │ Framework   │  │ (utils, common)     │   │
│  └─────────────┘  └─────────────┘  └─────────────────────┘   │
├─────────────────────────────────────────────────────────────┤
│  Hardware Layer (硬件层)                                      │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐   │
│  │    CUDA     │  │    Metal    │  │     CPU             │   │
│  │  (NVIDIA)   │  │ (Apple)     │  │   (x86/ARM)         │   │
│  └─────────────┘  └─────────────┘  └─────────────────────┘   │
└─────────────────────────────────────────────────────────────┘

2. 核心模块详细分析

2.1 MiniCPMO 核心类

位置: src/minicpmo.cpp, include/minicpmo.h

主要职责:
- 统一多模态输入处理
- 协调各子模块工作流程
- 管理模型生命周期
- 提供统一对外接口

关键成员变量:

	class MiniCPMO {
	private:
	    Siglip* vpm_;                    // 视觉投影模型
	    WhisperEncoder* apm_;            // 音频投影模型  
	    LLaMA* llama_model_;             // 语言模型
	    Outetts* tts_;                   // 文本转语音模块
	    std::vector<float> image_embd_out_;   // 图像嵌入缓存
	    std::vector<float> audio_embed_out_;  // 音频嵌入缓存
	    int n_past_;                     // 已处理token数量
	};

2.2 视觉处理模块 (Siglip)

位置: src/siglip.cpp, include/siglip.h

核心功能:
- 基于SigLIP的视觉编码器
- 支持图像预处理和patch化
- 提供视觉特征到嵌入空间的映射

关键流程:

输入图像 → UHD切片 → 归一化 → Patch处理 → Siglip编码 → 视觉嵌入

主要函数:
- _image_preprocess(): 图像预处理
- forward(): 前向推理
- uhd_slice_image(): 超高分辨率图像切片

2.3 音频处理模块 (WhisperEncoder)

位置: src/whisper_encoder.cpp, include/whisper_encoder.h

核心功能:
- 基于Whisper的音频编码器
- 支持16kHz采样率音频输入
- 提供音频特征提取和编码

关键流程:

音频PCM → FFT变换 → 梅尔频谱 → Whisper编码 → 音频嵌入

关键常量:

#define WHISPER_SAMPLE_RATE 16000
#define WHISPER_N_FFT 400
#define WHISPER_HOP_LENGTH 160

2.4 文本转语音模块 (Outetts)

位置: src/outetts.cpp, include/outetts.h

核心功能:
- 文本到语音转换
- 支持v0.2和v0.3模型版本
- 提供WAV文件保存功能

关键流程:

文本输入 → 文本规范化 → 语音合成 → 音频后处理 → WAV文件输出

3. 主要函数调用流程

3.1 初始化流程

3.2 视频处理流程 (流式)

3.3 图像处理详细流程

3.4 音频处理详细流程

3.5 文本生成流程

4. 关键数据流转

4.1 嵌入空间统一

// 统一的多模态嵌入结构
struct omni_embedding {
    std::vector<float> pre_tokens;    // <unit><image> token嵌入
    std::vector<float> image_embed;   // 图像嵌入 ( Siglip输出 )
    std::vector<float> mid_tokens;    // </image><|audio_start|> token嵌入
    std::vector<float> audio_embed;   // 音频嵌入 ( Whisper输出 )
    std::vector<float> post_tokens;   // <|audio_end|> token嵌入
};

4.2 内存管理策略

- 静态缓存: image_embd_out_, audio_embed_out_
- 动态分配: 临时嵌入向量、token序列
- 上下文管理: KV缓存自动清理和上下文切换

5. 性能优化策略

5.1 并行处理

- OpenMP: 图像预处理并行化
- CUDA: GPU加速矩阵运算
- 流水线: 音视频并行解码

5.2 内存优化

- 量化模型: Q4_K、Q4_1量化支持
- 缓存重用: Token级别缓存机制
- 流式处理: 减少内存占用

5.3 计算优化

- Flash Attention: 加速注意力计算
- FFT优化: 预计算三角函数表
- 图像预处理: Bicubic插值并行化

6. 模块间接口设计

6.1 标准化接口

// 统一的编码器接口
class EncoderInterface {
public:
    virtual void forward(const std::vector<float>& input, std::vector<float>& output) = 0;
    virtual size_t get_output_size() const = 0;
    virtual void clear_cache() = 0;
};