基于3D立体相机数据集的果园梨识别系统研究
1. 训练细节
在这项研究中,使用了9054张PNG格式的四通道RGBA图像,其中3018张为原始图像,6036张为增强图像,所有图像均由同一台3D立体相机拍摄。验证集的大小通过验证集的损失函数进行调整,初始时,训练集、验证集和测试集按照6:3:1的比例划分,即训练集5054张图像,验证集2700张图像,测试集900张图像。
训练轮数(epoch)设置为80,每轮包含500步。实验过程中,由于Mask - RCNN只能使用三通道RGB图像进行预测,在发现错误后,将900张RGBA测试集图像的通道修改为RGB。
研究对相同数据集在不同学习率下进行了对比实验。当学习率设置为0.001时,训练损失降至0.3099,验证集损失降至0.4637。各部分损失情况如下表所示:
|损失类型|训练集损失|验证集损失|
| ---- | ---- | ---- |
|Mask R - CNN头边界框损失|0.0434|0.0601|
|Mask R - CNN头类别损失|0.0656|0.1119|
|Mask R - CNN掩码损失|0.1260|0.1310|
|RPN边界框损失|0.0677|0.1077|
|RPN类别损失|0.0071|0.0432|
整体损失由上述五种损失相加构成。分类损失表示训练模型预测正确类别的接近程度,Mask R - CNN类别损失用于头层,涵盖所有对象,而RPN类别损失仅涵盖图像的前景和背景。边界损失反映真实框与预测框之间的距离,Mask R - CNN掩码损失反映模型预测正确类别掩码的接近程度。
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



