计算机视觉中的高级问题:对象测量与计数
1. 引言
计算机视觉领域有很多高级问题,如对象测量和计数。这些问题在实际应用中非常广泛,例如在线鞋店通过顾客脚印照片确定合适的鞋码,或者通过图像计算浆果数量等。下面将详细介绍解决这些问题的方法和步骤。
2. 对象测量
2.1 参考对象的引入
在一些场景中,我们需要知道图像中对象的实际尺寸。以在线鞋店为例,为了帮助顾客找到合适的鞋码,我们让顾客将湿脚踩在纸上,然后上传脚印照片。但仅靠脚印照片无法有效解决测量问题,因为照片中脚的大小会受相机与纸张距离等因素影响。
为解决这个尺度问题,我们引入参考对象。大多数顾客都有信用卡,其尺寸是标准的,可作为参考对象。我们让顾客在拍照前将信用卡放在脚印旁边,这样就可以通过比较脚和信用卡的相对大小来进行测量。
在构建训练数据集时,可能需要对图像进行一些处理,如旋转图像使所有脚印方向一致,避免测量到投影长度而非真实长度。对于参考信用卡,在训练前不进行校正,而是在预测时对齐生成的脚和参考掩码。
在训练开始时,可以进行数据增强,如旋转、模糊、改变亮度、缩放和对比度等,这有助于增加训练数据集的大小,并让模型能适应更多真实世界的数据变化。
2.2 分割
机器学习模型首先需要从图像中分割出脚印和信用卡,并识别它们为正确的对象。这里我们使用 Mask R - CNN 图像分割模型。通过该模型的掩码分支,我们可以预测出脚印和信用卡的掩码。
掩码分支的输出有两个通道,分别对应脚印和信用卡。我们可以单独查看每个掩码。接下来,需要对齐这些掩码以获得正确的测量结果。
超级会员免费看
订阅专栏 解锁全文
4247

被折叠的 条评论
为什么被折叠?



