目标检测中图片按指定角度翻转并修改xml文件信息

本文介绍了一种基于图像翻转的数据增强方法,通过旋转图片并调整坐标来增加深度学习训练数据集的多样性和规模,适用于目标检测任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用于解决深度学习中数据集不足问题

包含模块:numpy,cv2,os,math,xml.etree.ElementTree

# 读取图片,读取xml文件
# 解析xml文件获取图片的大小,xml中的多组坐标
# 翻转图片,根据图片翻转的角度,获取新的图片大小和坐标点
# 将坐标信息和图片大小在原有的xml中修改参数保存到新的xml文件中
# 创建新的文件夹,将图片和xml文件放在同一文件夹中(一组图片和xml文件命名相同)

import os
import numpy as np
import cv2
import math
import xml.etree.ElementTree as ET

#按角度翻转图片
def rotate_img(src, angle, scale = 1):
	width = src.shape[1]
	height = src.shape[0]
	# 角度变弧度
	re_angle = np.deg2rad(angle)
	# 计算新图片的高度和宽度
	new_width = (abs(np.sin(re_angle) * height) + abs(np.cos(re_angle) * width)) * scale
	new_height = (abs(np.cos(re_angle) * height) + abs(np.sin(re_angle) * width)) * scale

	rotate_matrix = cv2.getRotationMatrix2D((new_width * 0.5, new_height * 0.5), angle, scale)
	rotate_move = np.dot(rotate_matrix, np.array([(new_width - width) * 0.5, (new_height - height) * 0.5, 0]))

	# update translation
	rotate_matrix[0, 2] += rotate_move[0]
	rotate_matrix[1, 2] += rotate_move[1]

	dst = cv2.warpAffine(img, rotate_matrix, (int(math.ceil(new_width)), int(math.ceil(new_height))), flags=cv2.INTER_LANCZOS4)
	return dst

# 翻转后的xml文件信息
def rotate_xml(src, xmin, ymin, xmax, ymax, angle, scale = 1):
	width = src.shape[1]
	height = src.shape[0]
	re_angle = np.deg2rad(angle)
	new_width = (abs(np.sin(re_angle) * height) + abs(np.cos(re_angle) * width)) * scale
	new_height = (abs(np.cos(re_angle) * height) + abs(np.sin(re_angle) * width)) * scale
	rotate_matrix = cv2.getRotationMatrix2D((new_width * 0.5, new_height * 0.5), angle, scale)
	rotate_move = np.dot(rotate_matrix, np.array([(new_width - width) * 0.5, (new_height - height) * 0.5, 0]))
	rotate_matrix[0, 2] += rotate_move[0]
	rotate_matrix[1, 2] += rotate_move[1]
	# 获取原始矩形的四个中点,然后将这四个点转换到旋转后的坐标系下
	point1 = np.dot(rotate_matrix, np.array([(xmin + xmax) / 2, ymin, 1]))
	point2 = np.dot(rotate_matrix, np.array([xmax, (ymin + ymax) / 2, 1]))
	point3 = np.dot(rotate_matrix, np.array([(xmin + xmax) / 2, ymax, 1]))
	point4 = np.dot(rotate_matrix, np.array([xmin, (ymin + ymax) / 2, 1]))
	concat = np.vstack((point1, point2, point3, point4))  # 合并np.array
	# 改变array类型
	concat = concat.astype(np.int32)
	rx, ry, rw, rh = cv2.boundingRect(concat)		#rx,ry,为新的外接框左上角坐标,rw为框宽度,rh为高度
	new_xmin = rx
	new_ymin = ry
	new_xmax = rx + rw
	new_ymax = ry + rh

	return new_xmin, new_ymin, new_xmax, new_ymax

if __name__ == '__main__':

	file_path = 'D:/relabeled/' #输入路径
	rotated_img_path = 'D:/rotated/rotatedimg/'	 #翻转后的图片路径
	rotated_xml_path = 'D:/rotated/rotatedxml/'  #翻转后的xml路径

	# 自定义翻转角度
	for angle in (10,20,30):
		for file in os.listdir(file_path):
			if file.endswith('.jpg'):
				a,b = os.path.splitext(file)
				img = cv2.imread(file_path + a + '.jpg')
				rotated_img = rotate_img(img, angle)
				cv2.imwrite(rotated_img_path + a + '_' + str(angle) + 'd.jpg', rotated_img)
				print(str(file) + ' ' + 'has been rotated for' + str(angle) + '°')
			if file.endswith('.xml'):
				src = cv2.imread(file_path + a + '.jpg')
				tree = ET.parse(file_path + a + '.xml')
				root = tree.getroot()
				# 修改xml中的标签坐标信息
				for box in root.iter('bndbox'):
					xmin = float(box.find('xmin').text)
					ymin = float(box.find('ymin').text)
					xmax = float(box.find('xmax').text)
					ymax = float(box.find('ymax').text)
					new_xmin, new_ymin, new_xmax, new_ymax = rotate_xml(src, xmin, ymin, xmax, ymax, angle)
					box.find('xmin').text = str(new_xmin)
					box.find('ymin').text = str(new_ymin)
					box.find('xmax').text = str(new_xmax)
					box.find('ymax').text = str(new_ymax)
				tree.write(rotated_xml_path + a + '_' + str(angle) + 'd.xml')
				print(str(file) + ' ' + 'has been rotated for ' + str(angle) + '°')

	print("-----------------------------------")
	print("Successful!")

 主要参考:https://blog.youkuaiyun.com/jieshaoxiansen/article/details/81280458

 

<think>好的,我需要帮助用户了解如何对已标注的图片进行数据增强的方法和工具。首先,我要整理用户提供的引用内容,看看里面提到的工具和方法有哪些。引用里提到了LabelImg、LabelMe、Albumentations这些工具,还有数据增强的具体技术,比如模糊、亮度调整、裁剪、旋转等。用户可能想知道具体的步骤和推荐的库,以及如何保持标注同步。 接下来,我应该分步骤来回答。首先介绍数据增强的基本概念,然后分工具介绍,比如使用LabelImg/LabelMe的增强方法,再详细说明Albumentations的使用,特别是因为它支持目标检测和分割。需要提到关键点,比如保持标注同步的重要性,以及如何通过Albumentations处理边界框。可能还需要提到电商领域的应用,如引用3中的实体和关系标注的数据增强。 然后,我需要确保格式正确,行内数学公式用$...$,独立公式用$$...$$,但可能这里用不上太多数学公式,除非提到某些变换的矩阵,比如旋转矩阵可以用LaTeX表示。例如,旋转的变换矩阵可以写成: $$ \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix} $$ 不过用户的问题主要是关于工具和步骤,可能不需要太多公式,但如果有相关的地方可以适当加入。 然后,生成相关问题,可能需要考虑用户进一步可能想知道的内容,比如工具的比较、保持标注同步的方法、特定领域的数据增强等。 检查引用是否正确,用户提供的引用1到4都是关于数据增强的工具和案例,需要正确对应到回答中的各个部分,比如LabelImg和LabelMe在引用1,Albumentations在引用2和4,电商领域在引用3。 最后,确保回答结构清晰,步骤明确,使用中文,且符合用户要求的格式,比如代码块用正确的语法,引用标识自然添加在相关段落末尾。</think>### 已标注图片数据增强方法及工具 对已标注图片进行数据增强时,需确保图像变换与标注文件(如边界框、掩码、关键点等)同步更新。以下是具体方法和工具: --- #### 一、数据增强方法 1. **基础几何变换** - **平移/旋转/缩放**:调整图像位置或角度时,需同步更新标注坐标。例如,图像旋转角度$\theta$时,边界框坐标需通过旋转矩阵重新计算[^4] - **裁剪/镜像**:裁剪需调整标注框的边界值,镜像需翻转坐标轴。 2. **色彩与纹理变换** - **亮度/对比度调整**:仅影响像素值,无需修改标注。 - **模糊/噪声添加**:适用于模拟低质量图像场景。 3. **复合增强** 组合多种变换(如先旋转后添加噪声),提升数据多样性[^2]。 --- #### 二、常用工具及实现步骤 ##### 1. **LabelImg/LabelMe 配套工具** - **适用场景**:目标检测、图像分类标注文件(XML/JSON格式)[^1] - **操作流程**: ```python # 示例:使用专用脚本对标注文件同步增强 from augmentation_tool import augment_dataset augment_dataset(input_dir="images/", output_dir="augmented/", rotate_range=30) ``` - **特点**:需依赖自定义脚本或开源工具(如`imgaug`配合标注解析)。 ##### 2. **Albumentations**(推荐) - **核心优势**:支持目标检测、分割、关键点任务的标注同步[^4]。 - **代码示例(YOLO格式)**: ```python import albumentations as A transform = A.Compose([ A.RandomRotate90(), A.HorizontalFlip(p=0.5), A.RandomBrightnessContrast(p=0.2), ], bbox_params=A.BboxParams(format='yolo')) augmented = transform(image=img, bboxes=bboxes) augmented_img = augmented['image'] augmented_bboxes = augmented['bboxes'] ``` - **关键参数**: - `bbox_params` 指定标注格式(如YOLO、COCO) - `keypoint_params` 处理关键点任务[^2]。 ##### 3. **电商领域知识图谱增强** - **实体/关系标注增强**:通过语义替换(如商品属性替换)或结构扩充(如添加虚拟关联关系)[^3]。 --- #### 三、注意事项 1. **标注一致性校验**:增强后需验证标注是否超出图像边界或逻辑错误。 2. **增强比例控制**:避免过度增强导致噪声干扰模型训练。 ---
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值