一、将图像使用SS选取候选框ROI,并将ROI图像(2000)保存到磁盘中。
图像信息:区域图像,区域坐标,ROI区域和GT的IOU值,ROI区域对应的GT的类别ID,tx/ty/tw/th回归转换系数。
二、基于ALexNet的特征提取网络,做模型微调。
训练数据构建:
train_x : 区域图像
train_y: 类别标签ID
正例:IOU大于等于0.5
负例:IOU小于0.5
三、SVM分类器的训练数据生成
使用第二步训练好的ALexNet模型对所有的区域图像进行前向过程的预测,将FC7层的特征输出作为SVM训练的原始特征信息
四、SVM分类器的训练
训练数据构建:
train_x : 区域图像所对应的FC7层的高阶特征(4096的向量)
train_y: 类别标签ID
正例:GT真实边框
负例:IOU在[0.1, 0.3]
五、回归模型的训练数据生成
使用训练的ALexNet模型对所有区域图像进行预测(前向过程),将Conv5层的特征输出作为训练回归模型的原始特征信息。
六、回归模型训练
训练数据构建:
train_x : 区域图像所对应的Conv5层的高阶特征
train_y: 转换系数tx/ty/tw/th
参与模型训练的数据要求:IOT必须大于0.6
CV-1-目标检测-03-RCNN-01-RCNN模型搭建思路.txt
最新推荐文章于 2021-11-27 09:37:57 发布
本文详细介绍了使用SS算法选取候选框ROI并保存图像,通过ALexNet模型微调进行特征提取,利用SVM和回归模型进行分类与位置回归,实现视觉目标的精确检测与定位。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Llama Factory
模型微调
LLama-Factory
LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调
576

被折叠的 条评论
为什么被折叠?



