【导读】
全球每年约有1,500万新发脑卒中病例,其中缺血性卒中占80%,出血性卒中占20%,导致约650万人死亡,是全球第二大死因。高血压是最主要风险因素,而低收入国家的发病率、死亡率和治疗差距显著高于高收入国家。康复阶段,早期干预可降低30%致残率,但约50%存活患者遗留长期残疾,且10年内复发风险达25-40%。>>更多资讯可加入CV技术群获取了解哦~
论文题目:
Automatic Temporal Segmentation for Post-Stroke Rehabilitation: A Keypoint Detection and Temporal Segmentation Approach for Small Datasets
论文链接:
https://arxiv.org/pdf/2502.19766
一、引言
深度学习的进步使得包括医疗保健在内的各个领域都能实现自动化。在康复领域,深度学习为简化和增强评估流程提供了潜力。尽管潜力巨大,但挑战依然存在,包括真实世界患者数据的有限可用性、使用合成数据的困难,以及处理视频数据的复杂性(通常涉及空间和时间复杂性)。
为了克服这些挑战,我们提出了一个新颖的框架,根据特定领域的视角将复杂的任务分解成更小、更易于管理的子任务。通过关注行动研究手臂测试(ARAT)过程中关键的手-物互动,我们分离出关键动作并提取二维关节坐标进行尾随分析。这种有针对性的方法使我们能够重新降低模型的复杂性并减少过度拟合,即使数据集很小也是如此。我们使用的是 ASAR(Affective State for ARAT Rehab)数据集,该数据集由中风患者进行标准化行动研究手臂测试(ARAT)的视频记录组成。ARAT 通过评估中风患者执行抓取、移动和举起物体等任务的能力来评估其上肢震颤运动功能,有助于跟踪康复进展。
二、方法
我们的研究分为三个主要阶段。首先,我们从提供的视频中检测关键点,包括物体的中心坐标和手部地标。接着,我们对结果进行细化,以便将其输入到时间分割模型中。最后,我们使用完善的时间序列数据来训练模型,使其能够准确预测时间戳。这些阶段中的每个阶段都是按顺序执行的,需要对数据有详细的了解。整体流程如图 1 所示。如图 1 所示,整个过程首先是检测视频中的关键点,然后对这些点进行细化,为时间分割做好数据准备。然后,细化的时间序列数据将用于训练模型,从而实现准确的时间戳预测。这种结构化方法可确保每个阶段都建立在前一个阶段的基础上,从而确保强大的分割性能。
-
关键点检测
在本研究中,数据收集包括从多个角度捕捉中风患者的活动,共有 12 个交互对象。这些物体大小不一,从 10 厘米的木块到大理石球不等。这些数据集用于微调在 MS-COCO上预先训练好的 TridentNet 。我们之所以选择这种 2D 物体检测模型,是因为其规模感知训练方案使其在识别小物体时非常稳健。利用微调模型,我们推断出了物体的位置,在推断过程中,我们只从获得的边界框中提取中心坐标。
关于手部,单独获取手部关键关节的位置信息非常重要。因此,我们利用谷歌的 MediaPipe [16],仅通过推理过程就能获得手部地标信息,无需额外训练。该模型可识别图像帧中参与活动的手的位置,并提供 21 个手指关节坐标。
图 2 显示了使用这些方法获得的坐标位置信息。从目标对象中获得一个单独的坐标,而从手部提取 21 个坐标值。以这种方式获得的坐标可作为时间分割模型的特征向量。由于现有检测模型的结果并不完全准确,因此会出现某些帧未进行检测或物体分类错误的情况。在使用分割模型或其他时间序列方法进行处理时,这会导致序列不完整。因此,有必要为此对数据进行细化。
-
完善检测到的时间关键点数据
通过物体检测模型和手部地标检测模型,我们获得了关键点的 x 和 y 坐标。在给定数据集上对 TridentNet进行微调后,三个视图的物体检测准确率分别为 83.83、85.36 和 61.79。对于某些物体,模型的准确率达到了 99%,而对于其他物体,准确率连 30% 都达不到。因此,将物体检测结果作为时间序列分割模型的输入数据是不可行的。有关物体检测的实验将在实验部分进一步讨论。同样,在使用 Mediapipe 模型进行手指关节坐标检测时,有时由于遮挡,21 个手指关节坐标没有被正确检测到。
为了解决这个问题,我们决定利用我们的先验知识,即每帧中始终只有一个物体,来进行物体检测。如果没有检测到目标物体,我们就使用其他检测到的物体中分类得分最高的物体的中心坐标作为替代坐标数据。利用这种方法,即使物体检测模型的分类能力不强,我们仍然可以利用其定位能力。这与我们利用位置信息获取目标物体轨迹的目标不谋而合。接下来,我们检查了目标中心坐标数据和手部地标坐标数据,排除了缺失值超过 25% 的数据。即使经过过滤,仍有部分数据存在缺失值,我们使用近邻插值法解决了这一问题。然后,我们使用 Savitzky-Golay 滤波器[20]来处理异常值并平滑数据。获得的数据随后被用作时间序列分割模型的输入。利用时间序列数据的时间背景,这种方法使我们能够恢复某些物体的错误数据,而这些数据可能由于遮挡或其他问题而未受到保护。
-
时序关键点分割
分割模型采用Vanilla Transformer编码器架构,具体实现流程:
-
特征构造:拼接手指关节y坐标与物体中心y坐标
-
位置编码:为每帧坐标添加时序位置嵌入
-
注意力计算:通过线性投影生成Q/K/V向量,按式1计算缩放点积注意力
-
分类输出:线性层+softmax生成动作标签概率分布,采用交叉熵损失(预处理中的零填充不参与损失计算)
-
为验证架构有效性,我们同时测试了两种变体:
-
Transformer-LSTM混合模型:用LSTM替代原解码器
-
纯LSTM基准模型:用于对比实验
(注:图3展示了三相机正交布设方案,根据患者手掌朝向将左右视角数据分为对侧/同侧。完整方法论应包含超参数设置、训练细节等补充材料,此处为保持行文简洁暂略,可根据需要扩展。)
三、Coovally AI模型训练与应用平台
在Coovally平台上,支持多种计算机视觉任务,如目标检测、实例分割、图像分类等,而且Coovally即将推出关键点检测、多模态3D检测、目标追踪等全新任务类型,为研究者和产业开发者提供极简高效的AI训练与优化体验!
-
无需代码,训练结果即时可见!
在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!
-
SSH直连云端算力,实时调试更自由!
为了开发者们更加自由调试模型,Coovally即将上线SSH远程连接,开发者们可以直接通过SSH连接Coovally的云端算力,基于VS Code、Cursor或Windsurf等开发工具,轻松进行模型算法的开发与改进。
-
大模型加持,智能辅助模型调优!
若对模型效果不满意?Coovally即将推出大模型智能调参能力,针对你的数据集与任务目标,自动推荐超参数优化方案,让模型迭代事半功倍!
-
千款模型+海量数据,开箱即用!
平台汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!
-
从实验到落地,全程高速零代码!
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
-
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);
-
免复杂参数调整:内置自动化训练流程,小白也能轻松上手;
-
高性能算力支持:分布式训练加速,快速产出可用模型;
-
无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。
!!点击下方链接,立即体验Coovally!!
平台链接:https://www.coovally.com
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
四、实验
-
数据集
本研究采用ASAR数据集提供的视频数据,该数据集通过临床环境下记录脑卒中患者执行19项标准化动作研究臂测试(ARAT)评估任务构建而成。患者需运用抓握(Grasp)、握持(Grip)和捏取(Pinch)等技术将目标物体从初始位置移至指定位置,整个过程由三个正交视角同步采集(如图3所示)。
物体检测环节沿用文献的划分方法构建训练/测试集。时序分割模型采用未参与微调的患者群组数据进行推理。实验按视角类型分别开展:同侧(患侧)、对侧(健侧)及顶视视角。所有视角均包含手部关键点数据,其中对侧视角因能清晰呈现物体位置,额外包含物体坐标信息。因此对侧数据共22个通道(21个指关节坐标+物体坐标),而顶视和同侧数据仅含21个手部关键点通道。本实验仅采用上述关键部位的Y轴坐标数据。
真实分割标签包含四个动作阶段:
-
启动与推进(IP):从手部开始移动至进入物体导向空间
-
终止(T):从IP结束到物体离开桌面
-
操纵与运输(MTR):从物体离桌到接近目标空间
-
放置与释放(PR):从物体接近目标到完全释放
顶视数据使用全部四个标签,其余两个视角因视频后半段被排除仅使用IP、T、MTR三个标签。
原始数据集包含106名患者执行19项任务的视频记录。经物体检测和手部关键点检测预处理后,有效数据量有所减少。三视角数据均按患者划分训练/测试集(测试集固定为7名患者):
-
对侧数据:训练集50名患者/277条数据,测试集42条数据
-
顶视数据:训练集58名患者/491条数据,测试集70条数据
-
同侧数据:训练集59名患者/564条数据,测试集79条数据
-
训练集进一步采用k折交叉验证[10](验证集占比20%)。
所有数据序列统一标准化为300帧(视频采样率30fps)。超长序列进行降采样,不足部分零填充。
-
物体检测实验设置
采用Detectron2提供的MS-COCO预训练TridentNet获取目标物体中心坐标。在ASAR数据集上的微调参数为:初始学习率0.0025,训练60,000次迭代,第47,000和55,000次迭代时学习率衰减0.1倍。表1展示了12类物体的检测准确率:
模型对大尺寸物体(如10cm木盒、平底杯、厚合金管)表现良好,但对垫圈、滚珠轴承等小物体检测性能显著下降,尤其同侧视角因手背遮挡导致准确率最低。
-
时序分割实验设置
对比三类模型架构:
-
纯LSTM模型
-
纯Transformer模型
-
Transformer-LSTM混合模型
如表2所示,模型命名规则为"架构类型+层数"(如Trans3LSTM1表示3层Transformer接1层LSTM)。采用五折交叉验证,指标报告均值±标准差。所有模型训练500个epoch,参数设置如下:
-
优化器:Adam[9](学习率0.001)
-
Transformer:嵌入维度128,8头注意力机制
-
LSTM:隐藏层维度256
-
评估指标:帧级准确率(正确标注帧数/总帧数)
本实验严格保持原文所有技术细节,包括:
-
数据预处理的具体参数(300帧标准化方法)
-
模型结构的精确描述(如Trans3LSTM1的级联方式)
-
训练过程的完整超参数(学习率衰减策略)
-
评估指标的数学定义
-
数据划分的统计学特征(患者数量与数据条数的对应关系)
五、实验结果
通过增加Transformer编码器层数,我们观察到模型性能呈现整体提升趋势,这主要归因于Transformer架构固有的自注意力机制。图4展示了多头注意力机制中单个注意力头在一个样本上的注意力得分可视化结果。在前两层中,注意力图谱未能为分割任务提供有效信息;但从第三层开始,注意力图谱显示出特定区域内相似性增强,形成明显的区块结构。图4右图中的红色线条标注了真实分割标签,通过对比标签与区块边界可以证明:Transformer的自注意力机制在一维时序数据分割中具有关键作用。该可视化结果为"层数增加如何提升性能"提供了超越准确率指标的深入解释。
性能提升在对侧视角(数据量最小的视角)中表现尤为显著,这表明在有限数据条件下,深层模型对最终预测更具优势。此外,尽管Transformer的可训练参数更少,但将少量Transformer编码层与LSTM模块结合后,其性能优于单独使用任一种架构。这证明即使在小数据集条件下,引入Transformer层仍能带来显著的性能提升。
图5通过三视角下同一患者单次活动的坐标轨迹图,进一步验证了时序分割的有效性。图中x轴表示时间,y轴表示每帧中手腕关节的y坐标,不同颜色的轨迹线清晰区分了不同动作阶段。通过分析单场景多视频的关键点轨迹,我们能够识别出最适合划分动作边界的视角,该分析不仅揭示了各视角数据集的优劣势,更为如何优化信息利用提供了重要依据。
六、结论
本研究通过将复杂康复动作分解为基于领域知识的子任务,构建了适用于物理治疗场景的有效框架。该方法在小规模真实数据条件下展现出临床级应用潜力,证实了融合运动生物力学知识进行模型设计的价值,即使在小数据集条件下也能实现精确的时序分割。通过优化关键点数据,我们证明了聚焦患者特异性运动可显著提升相关动作分割与分析效率。
我们对Transformer编码层深度与时序分割精度的关系进行了系统分析,强调了模型架构对结果可靠性的关键影响。所提出的物体与手部定位后优化流程,有效缓解了检测精度限制,提升了时序分割数据的质量。
展望未来,该框架可扩展至婴幼儿行为监测、宠物活动分析、居家养老监护等小样本场景。通过整合多视角摄像头或多元传感器数据,有望进一步丰富上下文信息,提升对复杂运动模式的分割精度与鲁棒性,为跨领域应用开辟新途径。