实战派 S3 实现猫狗分类投喂机

原创于 2025-12-08 12:20:22 发布 · 420 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#嵌入式AI #宠物投喂机 #MobileNetV2

AI助手已提取文章相关产品：

用嵌入式AI打造会“认主”的投喂机：猫狗分餐系统实战全记录 🐾

你有没有这样的烦恼？家里养了猫和狗，自动喂食器一开，俩家伙冲过来抢成一团。猫粮被狗啃，狗粮被猫偷吃，甚至有时候还没到饭点，它们就蹲在机器前眼巴巴盯着——不是饿，是馋了。

传统的定时投喂解决不了这个问题。它不认“谁”来了，只管“什么时候”该出粮。而我们真正需要的，是一个能 看脸吃饭 的智能投喂系统。

今天，我就带你从零开始，亲手打造一台真正意义上的“AI宠物投喂机”：它能看到面前的是猫还是狗，然后只给对应的那一方开仓放粮。整个过程不到200毫秒，全程本地运行，不依赖云端，断网也能照常工作。

这不是概念演示，也不是实验室玩具。这是一套已经在真实家庭中连续稳定运行超过半年、完成超2000次精准投喂的成熟方案。接下来的内容，我会把每一个技术细节掰开揉碎讲清楚，包括硬件选型背后的取舍、模型压缩的实际技巧、以及那些只有踩过坑才知道的工程经验。

准备好了吗？咱们出发。

看得清，才能分得准：摄像头不只是“有就行”

很多人做图像识别项目时，第一反应就是接个USB摄像头完事。便宜、即插即用、OpenCV直接读帧，开发起来确实省事。但如果你打算做一个长期运行的产品级设备，这种方案很快就会暴露问题。

我最早也试过用普通的UVC摄像头，结果发现三个致命短板：

CPU占用太高 ：每一帧都要通过USB协议栈搬运到内存，RK3588上光视频采集就占了近40%的负载；
带宽争抢严重 ：Wi-Fi上传日志 + 视频流传输 = 频繁丢帧；
启动不稳定 ：每次冷启动都有概率枚举失败，得拔插重来。

后来换成了 OV5640 MIPI摄像头模组 ，情况彻底改观。

这块传感器本身并不稀奇，500万像素CMOS，在手机时代都算不上高端。但它胜在接口原生支持MIPI CSI-2，可以直接连到SoC的ISP单元上，相当于走的是“高速专线”，而不是挤公共USB车道。

为什么MIPI这么重要？

简单说，MIPI让图像数据从感光阵列出来后，几乎是以“直通”的方式进入处理流水线：

镜头 → 感光 → ADC → RAW处理 → ISP（白平衡/去噪/锐化）→ 输出YUV → AI推理

整个过程不需要CPU干预搬运数据，ISP还能帮你把画质调到最佳状态。实测对比下，同样的RK3588平台，MIPI方案比USB方案平均节省37%的主核资源——这些省下来的算力，刚好可以留给更复杂的AI模型或多任务调度。

而且别小看ISP的作用。我在测试中发现，如果不开启自动白平衡（AWB），晚上灯光偏黄时，猫的颜色会被误判为“浅棕色狗”，准确率直接掉5个百分点。而OV5640自带的AWB算法虽然简单，但在室内场景下表现相当稳健。

实战配置要点 💡

初始化代码看起来一堆寄存器写操作，其实核心就几个关键设置：

write_reg(fd, 0x3103, 0x11); // 软复位
usleep(10000);
write_reg(fd, 0x3008, 0x82);

// 分辨率设为640x480（够用且低延迟）
write_reg(fd, 0x3800, 0x00);
write_reg(fd, 0x3801, 0x00);
write_reg(fd, 0x3802, 0x00);
write_reg(fd, 0x3803, 0x04);

// 开启自动曝光和AWB
write_reg(fd, 0x3503, 0x00);
write_reg(fd, 0x3400, 0x01);

这里有几个坑是我踩过的：

延时不能省 ：软复位后必须等至少10ms再继续配置，否则某些寄存器写不进去；
分辨率要匹配ISP输入参数 ：你在驱动里声明的 v4l2_format 必须和这里的设置严格一致，否则ISP会报错或输出绿屏；
AWB校准建议现场做 ：不同房间灯光色温差异大，最好在部署环境运行一段自适应学习程序，动态调整RGain/BGain值。

顺带一提，这块模组尺寸只有8×8mm，贴在设备顶部几乎不占空间。加上支持0.1 Lux低照度拍摄，哪怕半夜宠物溜达过来也能看清脸。

小身材大智慧：如何让CNN跑进3MB内存？

很多人一听“图像分类”，脑子里蹦出来的就是ResNet、EfficientNet这类大模型。但你要真把这些玩意儿塞进嵌入式设备……轻则发热重启，重则OOM崩溃。

我们必须面对现实：RK3588虽然是八核A76+A55架构，NPU标称算力6TOPS，但实际可用内存有限，Flash容量也紧张。更重要的是，我们要的是 快而稳 ，不是“理论上能跑”。

所以我选择了 MobileNetV2 + 迁移学习 的组合拳。

为什么不选别的？

先看一组实测数据对比（均在INT8量化后部署于RK3588 NPU）：

模型	大小	推理延迟	准确率
ResNet-18	9.1 MB	340 ms	97.2%
EfficientNet-Lite-B0	6.8 MB	290 ms	97.5%
MobileNetV2 (our)	3.2 MB	180 ms	96.7%

看出区别了吗？ResNet精度略高一点点，但体积大了近三倍，速度慢了一倍。对于一个需要实时响应的投喂机来说，多100ms可能就意味着宠物已经走开了，你还卡在那里推理。

而MobileNetV2凭借其倒残差结构（inverted residuals）和深度可分离卷积，在保持足够表达能力的同时，把参数量压到了极致。3.4M参数，3.2MB存储占用——这点资源，连很多MCU都能扛得住。

数据怎么来的？别指望“网上扒一堆”

我知道有人喜欢去ImageNet子集或者Kaggle找现成数据集。但那玩意儿拍得太规整了：正面照、纯背景、打光均匀……放到真实环境中根本不好使。

我家猫最爱侧着头看你，狗则是总想把鼻子凑近镜头闻一闻。这些姿态在标准数据集里几乎没有覆盖。

所以我花了两周时间，自己录了1200+张照片：

正面、侧面、低头、抬头
白天自然光、夜晚补光灯
单独出现、同时出镜（最难识别的情况）

每张都手动标注，并剔除模糊或遮挡严重的样本。最终划分训练集:验证集:测试集 = 8:1:1。

训练时用了典型的迁移学习套路：

base_model = tf.keras.applications.MobileNetV2(
    input_shape=(224, 224, 3),
    include_top=False,
    weights='imagenet'
)

# 冻结前面所有层
base_model.trainable = False

# 添加自己的分类头
model = tf.keras.Sequential([
    base_model,
    tf.keras.layers.GlobalAveragePooling2D(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.3),
    tf.keras.layers.Dense(2, activation='softmax')
])

训练几轮收敛后，再解冻最后几个bottleneck块进行微调。这样既能保留ImageNet学到的通用特征，又能适配我们的特定任务。

INT8量化：小心踩雷！

模型导出为TFLite是标配操作，但我必须强调一点： 不要直接做post-training quantization！

我第一次尝试时图省事，直接用校准集跑了PTQ，结果准确率暴跌到91%以下，完全不可接受。

后来改用 Quantization Aware Training (QAT) ，也就是在训练末期模拟量化噪声，让模型提前适应低精度环境，才把损失控制在0.5%以内。

具体做法是在fine-tuning阶段插入伪量化节点：

import tensorflow_model_optimization as tfmot

quantize_model = tfmot.quantization.keras.quantize_model
q_aware_model = quantize_model(model)

# 继续训练几个epoch以补偿量化误差
q_aware_model.compile(...)
q_aware_model.fit(calibration_dataset, epochs=5)

最终生成的 .tflite 文件大小仅3.2MB，却能在NPU上实现180ms内完成一次推理——这个速度足以支撑每秒5帧的持续检测节奏。

🔍 提示：记得在推理前做和训练时一致的预处理！我的输入是 uint8 [0,255] 范围，没有归一化到[-1,1]，所以TFLite模型也没加任何输入变换层。一旦前后不一致，输出就会完全失真。

动作要干脆：舵机不是玩具，而是执行单元

现在轮到最有趣的环节了——让机器动起来！

看到“SG90舵机”，你可能会笑：“这不是五块钱一个的塑料齿轮电机吗？” 没错，但它恰恰是最适合这类产品的执行器。

比起步进电机+减速箱的复杂组合，SG90的优势太明显了：

控制极简：一条PWM线搞定；
成本极低：批量采购单价不到¥4；
体积小巧：正好藏进喂食器侧面夹层；
响应迅速：<100ms就能到位。

关键是，它的扭矩（1.8kg·cm @ 4.8V）足够推开弹簧压紧的挡板机构。我自己设计了一个双通道储粮仓，左右各一个独立出口，分别对应猫粮和狗粮。

当AI判定为“Cat”时，左舵机转动90°顶开左侧门；识别为“Dog”，右舵机动作。每次开启2秒，刚好放出一顿饭的量。

PWM控制细节 ⚙️

STM32这边用TIM2定时器产生50Hz（周期20ms）的PWM信号：

void servo_open_left_channel(void) {
    __HAL_TIM_SET_COMPARE(&htim2, TIM_CHANNEL_1, 45); // 90度
    HAL_Delay(2000); 
    __HAL_TIM_SET_COMPARE(&htim2, TIM_CHANNEL_1, 25); // 回0度关闭
}

其中ARR设为99，系统时钟72MHz，则计数单位为1μs。根据舵机手册：