以公开数据集MSRA-TD500为例,数据集预先标定好的xml标签文件经过转换得到的yolo-obb格式的txt标签文件形式如下,其中每行九个数字分别代表:
类别编号、左上角x坐标、左上角y坐标、右上角x坐标、右上角y坐标、右下角x坐标、右下角y坐标、左下角x坐标、左下角y坐标。
其中坐标都是以比例系数的形式保存,如果要得到实际的坐标值,就要将x坐标乘图片的宽,y坐标乘图片的高。
0 0.157812 0.501563 0.798958 0.552344 0.795833 0.639844 0.154688 0.589063
而YOLOv8模型检测时,如果使用默认的模型,则会把图片缩放为640×640的大小,步骤为:先将长边缩放为640,短边同比例缩放;再将短边两端填充纯色块直到达到640的长度,如图所示,原图为1920×1280。
缩放后
所以检测输出的记录坐标的标签文件虽然也是“类别编号、左上角x坐标、左上角y坐标、右上角x坐标、