YOLO11改进算法 | 引入SimAM模块的YOLO11-pose关键点姿态估计

YOLO11是由Ultralytics团队于2024年9月30日发布的，它是YOLO（You Only Look Once）系列中的最新成员。YOLO11在之前版本的YOLO基础上引入了新功能和改进，以进一步提高性能和灵活性。这使得YOLO11成为目标检测和跟踪、实例分割、图像分类和姿态估计等多种计算机视觉任务的理想选择。

姿态估计是一项涉及识别图像中特定点（通常称为关键点）位置的任务。关键点可以代表物体的各个部分，如关节、地标或其他显著特征。关键点的位置通常表示为一组二维 [x, y] 或三维 [x, y, 可见] 坐标。

姿态估计模型的输出是一组代表图像中物体关键点的点，通常还有每个点的置信度分数。当您需要识别场景中物体的特定部分及其相互之间的位置关系时，姿态估计是一个不错的选择。

YOLO11-pose 模型是专门为这项任务设计的，并使用-pose后缀，如 yolo11n-pose.pt。这些模型已在COCO关键点等数据集上预先训练过，可用于各种姿势估计任务。

网络结构

YOLO11的主要改进包括引入C2PSA（跨阶段局部自注意）模块，如图7所示，该模块将跨阶段局部网络和自注意机制的优势结合起来。这使模型能够更有效地跨多个层捕获上下文信息，从而提高物体检测准确率，尤其是对于小物体和共谋物体。此外，在YOLO11中，C2f模块已被C3k2取代，C3k2是CSP Bottleneck的自定义实现，它使用两个卷积，而YOLOv8则使用一个大卷积。该模块使用较小的内核，在提高效率和速度的同时保持了准确性。

测试结果

YOLO11 这里显示的是经过预训练的Pose模型，官方在COCO数据集上做了更多测试，可看下图:

算法改进

SimAM（Simple Attention Module）是一个轻量化且高效的注意力模块，专注于通过简单的计算提高模型对重要特征的捕捉能力。它通过模拟神经元的响应来衡量特征的重要性，特别适合嵌入到复杂模型中而不会增加过多计算开销。之所以加入切片操作是因为SimAM计算整张特征图的像素差平均值时加权可能会忽略小目标的重要性，小目标在航拍图像中占比比较小，与整体平均值相比可能和背景信息相似，导致加权增强较弱，进而使得SimAM对小目标的增强能力较差。

局部和全局特征的兼顾

切片操作细化特征处理，SimAM 加强局部重要性的建模，确保模型既能捕捉细节特征，又能保留全局一致性。

提升模型精度

对复杂场景（如遮挡、多目标、复杂背景）的适应能力更强。对小关键点（如手指、脚趾等）的预测更加精准。

提高计算效率

切片操作减少不必要的全局计算，SimAM 的轻量化设计进一步降低额外开销。

增强模型鲁棒性

通过切片后的分区处理和注意力加权，模型能够更稳定地应对部分遮挡或数据缺失的情况。

模型指标

数据集介绍

手部关键点数据集

数据集大小300张：训练集236张，验证集64张，关键点共21个。

关键点类别:

# 关键点的类别
keypoint_class = ['Ulna', 'Radius', 'FMCP','FPIP', 'FDIP', 'MCP5','MCP4', 'MCP3', 'MCP2','PIP5', 'PIP4', 'PIP3'
                  ,'PIP2', 'MIP5', 'MIP4','MIP3', 'MIP2', 'DIP5','DIP4', 'DIP3', 'DIP2']

Coovally AI模型训练与应用平台

Coovally AI模型训练与应用平台，它整合了整合30+国内外开源社区1000+模型算法以及各类公开识别数据集。

如果你也想进行YOLO11算法模型训练，直接登Coovally，原始数据集也一键分享，开源算法直接下载使用！

总结来说，YOLO-Pose在各个方面性能都有所提升。如果您有兴趣了解更多关于模型算法的使用方法等，欢迎关注我们，我们将继续为大家带来更多干货内容！

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

4 条评论

Moon681 2025.02.02
请问simam的flops怎么算呀[face]emoji:054.png[/face]
- 带上形参的一天回复Coovally AI模型快速验证 2025.03.03
  有魔改的切片SimAM的源码吗，求求啦谢谢
- 带上形参的一天回复Coovally AI模型快速验证 2025.03.03
  有魔改的SimAM源码吗，求
- Coovally AI模型快速验证回复Moon681 2025.02.07
  首先要计算查询和键的乘积，然后计算softmax并用它去加权值，如果有多个注意力头，需要再乘上头的数量，SIMAM的FLops就是看每一层自注意力和前馈网络的计算量，综合起来大致是 𝑂(𝐻×𝑁^2×𝐷+𝑁×𝐷^2)。