【关键点检测】yolov7-pose改造——任意数量关键点检测并训练自己的数据集

原创

已于 2025-07-21 13:59:18 修改 · 5.1k 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #人工智能 #计算机视觉 #python

于 2024-07-16 16:07:39 首次发布

一、背景

工作项目需要用到关键点检测，yolo系列在工业视觉领域应用相对广泛，技术积累相对成熟（翻译：出bug方便搜），在检测速度和准确率方面也表现优异，毫无疑问成为首选。作为彼时yolo家族的最新款，本人也想尝尝鲜。

原始的yolov7-pose是针对人体17个关键点的检测模型，因此需要对其改造以适应项目需求（项目的使用场景中只需要3个关键点），开始漫长的改造和调试之路。

源码：GitHub - WongKinYiu/yolov7 at pose

二、具体工作

1. 准备数据集

数据标注工具使用的是labelme，生成标注文件，由于labelme无法直接生成yolo格式的标签，因此需要将其生成的coco格式的json文件转换为yolo格式的txt文件。

yolo格式的关键点标签文件内容如下：

前五个 $(cls, c_x, c_y, w, h)$ 为目标类别和标注框中心点和长宽，根据图像宽高统一进行归一化，后面即为关键点坐标和关键点可见度 $(kpx_1, kpy_1, v_1, kpx_2, kpy_2, v_2, ..., kpx_i, kpy_i, v_i)$ ， $x$ 和 $y$ 同样进行了归一化操作， $v=0, 1, 2$ ，0表示该点不存在，1表示该点不可见（遮挡），2表示该点可见。

转换代码网上很多，不多做介绍，主要参考[1]。

数据集生成之后，在data/coco_kpts.yaml中修改自己的数据集路径及类别信息。

2. 代码修改

数据集准备好之后就可以进行模型训练了，如果需要预训练权重可以从作者github上下载。由于官方提供的是针对人体关键点的检测代码，且并没有提供一个统一的关键点数量修改入口，在数据集加载、损失函数计算、画图等文件里默认都是1个类别和17个关键点，所以训练之前需要自己修改相关代码文件，将其中与关键点数量相关的部分全都修改为自己需要的关键点数量。

（1）cfg/yolov7-w6-pose.yaml

模型结构和anchor的配置文件，将里面的nc和nkpt修改为自己需要检测的类别数和关键点数量。

（2）model/yolo.py

Detect()对应的是yolo的head部分，处理模型最终的预测值，将其转换为我们最终需要的预测坐标和类别信息等。此脚本中作者在yolov5的Detect()中加入了对关键点预测信息的处理方法，并新增了IDetect()和IKeypoint()，三者之间大同小异，用哪个都可以，以下用IKeypoint()为例进行修改。

Line265-266，坐标种类划分

# 将6改为5+nc
x_det = x[i][..., :5 + self.nc]
x_kpt = x[i][..., 5 + self.nc:]

Line283-284，关键点坐标处理

# 17改为nkpt
x_kpt[..., 0::3] = (x_kpt[..., ::3] * 2. - 0.5 + kpt_grid_x.repeat(1,1,1,1,self.nkpt)) * self.stride[i]  # xy
x_kpt[..., 1::3] = (x_kpt[..., 1::3] * 2. - 0.5 + kpt_grid_y.repeat(1,1,1,1,self.nkpt)) * self.stride[i]  # xy

此部分修改仅在模型推理的后处理阶段有效，训练过程中并不会用到。

（3）utils/datasets.py

在create_dataloader()，LoadImagesAndLabels()，random_perspective()中添加参数nkpt

def create_dataloader(path, imgsz, batch_size, stride, opt, hyp=None, augment=False, cache=False, pad=0.0, rect=False,
                      rank=-1, world_size=1, workers=8, image_weights=False, quad=False, prefix='', tidl_load=False,
                      kpt_label=False, nkpt=0):

class LoadImagesAndLabels(Dataset):  # for training/testing
    def __init__(self, path, img_size=640, batch_size=16, augment=False, hyp=None, rect=False, image_weights=False,
                 cache_images=False, single_cls=False, stride=32, pad=0.0, prefix='', square=False, tidl_load=False,
                 kpt_label=True, nkpt=0):

def random_perspective(img, targets=(), segments=(), degrees=10, translate=.1, scale=.1, shear=10, perspect

最低0.47元/天解锁文章

24 条评论

小小的码农~ 2025.07.19
博主您好，为啥我数据集的标签文件都归一化了，用yolov8-pose可以训练，但是按您的方法下来，它显示100个数据集都有问题train: Scanning 'C:\Users\17860\Desktop\yjs\YOLO_improve\data\datasets_test\labels\train' images and labels... 100 found, 0 missing, 0 empty, 100 corrupted 最后输出个 File "c:\Users\17860\Desktop\yjs\YOLO_improve\yolov7-pose\train.py", line 590, in <module> train(hyp, opt, device, tb_writer) File "c:\Users\17860\Desktop\yjs\YOLO_improve\yolov7-pose\train.py", line 226, in train dataloader, dataset = create_dataloader(train_path, imgsz, batch_size, gs, opt, File "c:\Users\17860\Desktop\yjs\YOLO_improve\yolov7-pose\utils\datasets.py", line 63, in create_dataloader dataset = LoadImagesAndLabels(path, imgsz, batch_size, File "c:\Users\17860\Desktop\yjs\YOLO_improve\yolov7-pose\utils\datasets.py", line 415, in __init__ labels, shapes, self.segments = zip(*cache.values()) ValueError: not enough values to unpack (expected 3, got 0)
- weixin_45805360回复小小的码农~ 2025.08.03
  数据集的问题，你txt文件里关键点参数是三个x,y,v但博主的只用x，y所以你要删掉txt里面所有的参数v（可视参数）
- weixin_45805360回复小小的码农~ 2025.08.03
  我也是这个问题

嘀嗒哒丶泷 2025.04.30
general.py的non_max_suppression_export()这里56改为了3*nkpt+5，但是non_max_suppression_export()并没有nkpt参数传入，这里是否需要修改？
- 西瓜和拾月回复嘀嗒哒丶泷 2025.05.04
  需要，可能是忘了加了

H1413 2025.03.19
为啥我的kpt一开始损失就为nan

mztony314 2024.12.10
博主想请教一下，datasets.py那里，原来是需要39，之前的nkpt是17，那不应该是5+nkpt*2吗
- 西瓜和拾月回复mztony314 2024.12.11
  是我写错了，已修改，多谢指正

m0_73133687 2024.11.12
ValueError: not enough values to unpack (expected 3, got 0) 一步一步按照博主做，最后报这个错误，请问怎么解决 [face]emoji:054.png[/face]
- 小小的码农~回复m0_73133687 2025.07.19
  你好，你解决了这个问题了吗？我也遇到了，说是数据集没有归一化，但是我已经都归一化了
- 西瓜和拾月回复m0_73133687 2024.11.14
  得定位到错误出在哪里才能解决啊😂

m0_46346901 2024.10.21
请问为啥训练出来只有边界框的map，没有关键点的map

weixin_45038406 2024.10.08
请问下，数据集得多少张才能训练呢？我1800张图片，基线模型map50准确率达到99了
- weixin_45038406回复西瓜和拾月 2024.10.22
  嗯呢谢谢大佬
- 西瓜和拾月回复weixin_45038406 2024.10.11
  这跟具体的业务场景有关，如果场景特征单一，数据集也不用很多，保证模型不会过拟合就好

思黔 2024.09.19
先感谢一下大佬，我一直苦于数据集的问题好久了，一直用的是部分coco数据集做实验，但不是长久之计，今天终于找到这么详细的指导了，太感谢了，希望明天能跟着大佬修改成功，就是不知道yolov8pose是不是一样的

qq_41331932 2024.08.19
老哥，你跑过yolov5-pose吗？
- 西瓜和拾月回复qq_41331932 2024.09.06
  按文章中写的一步步来，应该可以改出来吧，应该写的比较详细了[face]emoji:057.png[/face]，数据集部分没写，网上资料挺多的
- qq_41331932回复西瓜和拾月 2024.08.31
  [face]emoji:010.png[/face]咋改的代码，我是菜鸡一直改不出来，没跑通过
- 西瓜和拾月回复qq_41331932 2024.08.22
  跑过，效果不如v7

西瓜和拾月 2024.07.17
是的没错
- 西瓜和拾月回复weixin_44480724 2024.08.02
  这个没遇到过，是不是跟标签数据有关，坐标没有归一化？
- weixin_44480724回复西瓜和拾月 2024.07.26
  还想请教下我修改了文件，进行多分类的多关键点检测时，总出现non-normalized or out of bounds coordinate labels报错dataset.labels为空，这个请问您有遇到过吗