61、利用数据和众包进行有意义的外科手术专业技能评估

利用数据和众包进行有意义的外科手术专业技能评估

1. 引言

伟大的音乐家、全明星运动员和高技能的外科医生有一个共同点:普通观察者只需观察他们的动作,就能轻易识别出他们的专业技能。这些动作,或者说专家行动时的表现,通常可以用流畅、轻松、迅速和果断等词汇来描述。鉴于我们对专业技能的理解深深植根于我们的词汇中,我们试图通过结合数据分析(如用户动作和生理反应)和众包标注来开发一套外科手术专业技能的词汇表。

近年来,数据驱动的外科手术技能识别领域有了显著发展。目前已有多种方法可基于动作分析、眼动追踪和运动控制理论等准确区分专家和新手用户,还能通过手术视频的成对比较对多个用户的专业技能进行排名。然而,一个悬而未决的问题是:如何将观察到的技能缺陷转化为更有效的培训方案?

本研究的核心假设是,人类对外科手术专业技能的感知更多是一种本能和冲动的判断,而非仔细、理性的评估。先前的研究表明,手术动作是手术的基本组成部分,但我们认为,识别外科手术技能更重要的是观察动作的质量,比如动作是否流畅、操作者在任务中是否自然。近期的研究支持了专业技能是一种普遍、本能评估的假设,普通大众中的众包工作者能够高精度地识别外科手术专业技能。因此,开发有效培训策略的关键在于将动作质量转化为普遍易懂、直观的语义描述符。

2. 专业技能的语义描述符

受言语指导对手术培训有益的研究启发,我们选择了一组语义标签,用于描述外科手术专业技能并在培训中指导新手。这些形容词的选择参考了文献中常见的指标,以及与外科医生教育者和培训人员的讨论。作为初步研究,我们选择了常用的形容词对,并为每对形容词关联了一个逻辑数据指标。具体如下表所示:
| 积极形容词 | 积极指标 | 消极指标 | 消极形容词 |
| — | — | — | — |
| 利落 | 高平均急动度 | 低平均急动度 | 抖动 |
| 流畅 | 低角速度变化 | 高角速度变化 | 黏滞 |
| 平滑 | 低加速度变化 | 高加速度变化 | 粗糙 |
| 迅速 | 短完成时间 | 长完成时间 | 迟缓 |
| 放松 | 低归一化肌电图 | 高归一化肌电图 | 紧张 |
| 平静 | 低皮肤电反应事件计数 | 高皮肤电反应事件计数 | 焦虑 |

3. 实验设置和方法

我们的假设是,与专业技能水平和可测量数据指标同时相关的众包选择的词汇,将是自动化指导系统的理想选择。许多研究表明,众包在评估技术技能方面是有效的,且与专家评估相关。本部分研究的目标是确定众包是否能识别出对手术技能最重要或最相关的专业技能词汇。

3.1 数据收集系统

为了量化与语义标签指标相关的任务动作和生理反应,我们选择测量关节位置(肘部、腕部、肩部)、肢体加速度(手部、前臂)、前臂肌肉活动(肌电图)和皮肤电反应。关节位置使用电磁跟踪器记录,肢体加速度、肌电图和皮肤电反应使用传感器单元测量。同时,我们使用CCD相机记录用户姿势和模拟手术训练任务的视频,并使用机器人操作系统同步所有数据收集。

3.2 模拟手术任务和人体实验研究

本研究选择的模拟手术任务用于评估腕部操作和针控制及驱动技能。选择了三名受试者,包括一名专家(超过6年临床机器人手术经验)、一名中级人员(PGY - 4外科住院医师)和一名新手(PGY - 1外科住院医师)。所有受试者首先进行两次非记录的热身任务,然后进行基线数据收集,包括手臂测量和最大自主等长肌肉收缩。之后,受试者进行记录的实验任务,每个任务分为三次重复试验。

3.3 众包工作者招募和任务

对于每次试验,将模拟手术任务和用户姿势的并排、时间同步视频发布在Amazon Mechanical Turk上。招募了547名匿名众包工作者,要求他们从六对对比形容词中各选择一个词来标注视频。众包工作者每标注一个视频获得0.10美元,且不允许对同一视频进行多次评估。

3.4 数据分析方法

对于每对词汇,有多种与所需指标相关联的选项。在本文中,我们基于逻辑推理和外科合作者的反馈选择指标。例如,通过安装在受试者右手的惯性测量单元的急动度平均值的标准差来测量手部动作的利落与抖动;通过同一惯性测量单元的角速度变化来测量流畅与黏滞等。最后,使用皮尔逊R相关性比较众包工作者的结果和每个词汇对的数据指标。

4. 结果和讨论

通过电磁跟踪器测量的每个受试者的腕部运动轨迹显示,专家的动作比中级和新手更紧凑、更平滑。对所有试验中三名受试者的每个选定指标的均值和标准差进行比较。在招募的547名众包工作者中,有7个任务因标注不完整被拒绝,每个发布的18个视频有30个完整任务。

进行ANOVA分析以确定在专业技能水平、任务类型和重复次数方面,数据指标和众包数据的显著组。同时,评估众包数据在词汇分配率方面的显著差异。结果总结如下表:
| 来源 | 指标/众包相关性 | 受试者(E, I, N) | 任务(RR, SS) | 重复次数(1 - 3) |
| — | — | — | — | — |
| 流畅/黏滞 | 0.82 | p = 0.0005,E > I & N | p = 0.0374,RR > SS | p = 0.1134,无显著差异 |
| 平滑/粗糙 | -0.25 | p = 0.0001,I < E & N | p = 0.1240,无显著差异 | p = 0.3366,无显著差异 |
| 利落/抖动 | 0.63 | p = 0.073,无显著差异 | p = 0.7521,无显著差异 | p = 0.9128,无显著差异 |
| 平静/焦虑 | -0.98 | p = 0.035,E < I < N | p = 0.2286,无显著差异 | p = 0.9504,无显著差异 |
| 放松/紧张 | 0.76 | p < 0.0001,E > N > I | p = 0.6834,RR > SS | p = 0.6291,无显著差异 |
| 迅速/迟缓 | -0.99 | p = 0.0028,E < N | p = 0.1659,无显著差异 | p = 0.8541,无显著差异 |
| 众包工作者评级 | < 0.0001,E > I > N | < 0.0001,SS > RR | 0.0005,2 < 1 & 3 |
| 众包工作者词汇选择评级 | “流畅”是最少被选择的词汇(p = 0.0003) | | | |

注:E – 专家,I – 中级,N – 新手,RR – 环轨任务2,SS – 缝合海绵任务3。

大多数指标不受任务或重复次数的显著影响。专家在除平滑/粗糙和放松/紧张指标外的所有指标上表现更好。众包工作者为专家分配了显著更好的语义标签,且认为环轨任务的评级显著低于缝合任务,所有受试者的第二次重复评估比第一次和最后一次差。数据指标与众包评级的相关性幅度在0.25至0.99之间,迅速/迟缓指标与词汇对的相关性最好,平滑/粗糙指标与词汇对的相关性最差,其次是利落/抖动指标。

5. 结论和未来工作

我们提出了一套由对比形容词对组成的外科手术专业技能词汇表,并将其与定量的动作或用户相关指标关联。研究表明,众包工作者标注的训练视频与专业技能水平密切相关,数据指标通常也与专业技能水平对应,但平滑/粗糙和放松/紧张指标存在一些差异。众包工作者能识别出数据指标中未体现的任务和重复差异,且并非所有数据指标都与众包工作者的评级趋势相关。

未来的研究方向包括确定哪些指标相关性最好,以及在评估专业技能方面,众包和指标哪个更准确。我们还计划扩展词汇表,纳入更多语义标签,并确定哪些标签能更好地预测专业技能。这些标签将成为未来自动化指导系统的基础,我们希望将这些方法扩展到手术培训的其他方面,如开放和腹腔镜技能、团队动态、患者互动和职业素养等。

利用数据和众包进行有意义的外科手术专业技能评估

6. 数据指标与众包评估的深入分析

为了更清晰地理解数据指标和众包评估之间的关系,我们可以通过以下流程图来展示整个评估过程:

graph LR
    A[数据收集] --> B[选择语义标签]
    B --> C[关联数据指标]
    C --> D[模拟手术任务实验]
    D --> E[众包标注视频]
    E --> F[数据分析与指标对比]
    F --> G[确定有效指标与标签]

从这个流程图可以看出,整个评估过程是一个逐步推进的过程。首先进行数据收集,包括用户的动作和生理反应数据。然后选择合适的语义标签,并将其与相应的数据指标关联起来。接着通过模拟手术任务实验来获取更多数据,再利用众包工作者对实验视频进行标注。最后进行数据分析,对比数据指标和众包评估结果,确定哪些指标和标签是有效的。

在数据指标方面,虽然大多数指标与专业技能水平有一定的相关性,但仍有部分指标存在问题。例如,平滑/粗糙和放松/紧张指标与专业技能水平的相关性较差,可能是由于指标选择不当或数据收集过程中的误差导致的。对于这些问题,我们可以进一步分析数据,尝试寻找更合适的指标来替代。

在众包评估方面,众包工作者能够准确地识别出专家与新手之间的差异,并且能够根据任务和重复次数给出不同的评价。这表明众包评估是一种有效的评估方式,但也存在一些局限性。例如,众包工作者的评价可能受到个人主观因素的影响,不同的众包工作者对同一视频的评价可能存在差异。为了减少这种差异,我们可以增加众包工作者的数量,或者对众包工作者进行培训,提高他们的评价准确性。

7. 自动化指导系统的构建思路

基于上述研究结果,我们可以构建一个自动化指导系统,帮助新手提高外科手术技能。以下是构建自动化指导系统的步骤:
1. 确定有效指标和标签 :根据数据分析结果,确定与专业技能水平相关性较高的指标和标签。这些指标和标签将作为自动化指导系统的基础。
2. 收集用户数据 :在实际手术培训过程中,收集用户的动作和生理反应数据,包括关节位置、肢体加速度、肌肉活动和皮肤电反应等。
3. 分析用户数据 :将收集到的用户数据与有效指标进行对比,分析用户的技能水平和存在的问题。
4. 生成指导建议 :根据分析结果,生成针对用户的具体指导建议。这些建议可以基于语义标签,如“动作要更流畅”、“保持放松状态”等。
5. 提供反馈和培训 :将指导建议反馈给用户,并提供相应的培训内容,帮助用户改进技能。

通过构建自动化指导系统,可以实现对外科手术技能的实时评估和指导,提高培训效率和质量。同时,自动化指导系统还可以根据用户的反馈不断优化,提高其准确性和有效性。

8. 未来研究方向的拓展

除了前面提到的确定最佳相关指标和扩展词汇表等未来研究方向外,我们还可以从以下几个方面进行拓展:
- 多模态数据融合 :目前的研究主要集中在动作和生理反应数据上,未来可以考虑融合更多的模态数据,如眼动数据、语音数据等。多模态数据融合可以提供更全面的信息,有助于更准确地评估外科手术技能。
- 个性化培训方案 :不同的用户具有不同的特点和需求,未来可以根据用户的个体差异制定个性化的培训方案。例如,对于某些动作不流畅的用户,可以提供专门的流畅性训练;对于容易紧张的用户,可以提供放松训练。
- 团队协作技能评估 :外科手术通常需要团队协作,未来可以将研究拓展到团队协作技能的评估上。通过分析团队成员之间的互动和协作情况,评估团队的整体技能水平,并提供相应的培训和指导。
- 虚拟现实和增强现实技术应用 :虚拟现实和增强现实技术可以提供更加真实和沉浸式的手术培训环境,未来可以将这些技术应用到外科手术培训中。通过虚拟现实和增强现实技术,可以模拟各种复杂的手术场景,让用户在虚拟环境中进行训练,提高培训效果。

综上所述,利用数据和众包进行外科手术专业技能评估是一种有前途的方法。通过不断地研究和改进,可以进一步提高评估的准确性和有效性,为外科手术培训提供更好的支持。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值