医疗器械可用性验证的扩展协议:研究设计和参考模型
运行标题:医疗器械可用性验证的扩展协议
1 通讯作者;电子邮件:m.schmettow@utwente.nl
作者:马丁·施梅托a ,1,拉斐拉·施尼特克b和扬·马尔滕·斯赫拉根a ,c
a. 荷兰恩斯赫德特温特大学认知心理学与人因工程系 b. 澳大利亚克莱顿莫纳什大学莫纳什大学事故研究中心 c. 荷兰佐斯特贝格TNO地球、生命与社会科学研究所 人类行为与组织创新部
亮点:
- 提出了一种针对医疗器械通用验证协议的纵向扩展方法
- 使用规范路径偏差作为衡量用户-设备交互易错性的指标
- 开发了一个用于纵向验证测试的参考回归模型,并以统计程序的形式提供
- 在一项关于注射器输液泵的比较性验证研究中展示了该扩展方法
关键词:
医疗器械设计;人因工程;患者安全;可用性测试;纵向研究; 广义线性混合效应模型
摘要
本文提出并演示了一种用于医疗器械可用性验证测试的扩展协议。对当前用于医疗器械可用性评估方法的审阅揭示了两个主要缺陷:首先,缺乏能够紧密追踪交互序列并导出性能指标的方法;其次,现有研究普遍侧重于横断面验证研究,忽视了可学习性和训练相关问题。为此,本文扩展了美国食品药品管理局近期提出的医疗器械验证测试协议,以解决上述不足:(1)引入一种新颖的过程度量“规范路径偏差”,该指标适用于定量和定性可用性研究;(2)提出一种纵向的、完全被试内研究设计,用于评估可学习性、训练效果,并允许分析用户多样性。本文引入一种参考回归模型,基于广义线性混合效应模型和贝叶斯估计方法,用于分析此类研究的数据。该扩展协议在一项研究中得以实施和演示,该研究比较了一种新型注射器输液泵原型与现有设计,样本包括25名医疗专业人员。通过多种可用性度量观察到不同设计之间存在显著的性能差异,以及不同的在职训练效应。我们结合验证测试指南讨论了研究发现,反思了所作的扩展,并探讨了这些扩展为验证过程带来的新视角。
1 动机
医疗保健环境是复杂的社会技术系统,其特点是人类与技术之间不可推卸的共同代理关系。因此,它们构成了一个联合认知系统[1]。换句话说,医疗器械对医疗保健和患者安全至关重要。
然而,尽管医疗器械通过改进监测和控制为患者护理做出了贡献,但它们也并非没有风险:从2005年到2009年,报告了约56,000起与输液泵使用相关的药品不良事件[2]。其中许多使用相关危害与用户界面设计缺陷有关[2,3]。
采用人因工程和可用性工程进行设计已被证明是提高性能相关结果的有效方法,例如减少错误、缩短时间并降低心理负担[4,5]。可用性测试通常被认为是用户中心设计的基石,因为它提供了有关设计问题的信息。此外,它还作为效率或操作安全性等性能要求的验证手段。然而,当前的可用性测试方法存在方法学上的不足,使其不太适用于高风险系统的验证。
在本文中,我们提出了一种扩展的可用性验证测试协议,并通过一项案例研究展示了其潜在贡献。具体而言,所提出的协议包含以下扩展:首先,采用纵向研究设计以追踪系统的可学习性;其次,引入一种记录和分析用户与医疗设备之间交互的新方法;第三,提出了一种参考回归模型,以最大程度地利用性能指标。
在第二部分中,通过一个案例研究展示了如何利用该协议对注射器输液泵的新界面设计与参考设计在可用性和安全性方面进行直接比较,并得出可靠结论。
1.1 医疗器械设计中的可用性
可用性被定义为“在特定使用情境下,指定用户为达成特定目标而使用产品的程度,包括有效性、效率和满意度”[6]。由于其对医疗保健领域高效且有效操作流程的重要性,可用性工程正越来越多地被纳入公共指导报告中。例如,美国食品药品监督管理局在其指南草案协议中[7]强调,在医疗器械设计过程中,为确保对使用相关危害的控制,必须遵循三个关键步骤:
1) 识别使用相关危害(通过分析方法得出,例如启发式分析)和未预见的使用相关危害(通过形成性评估得出,例如模拟使用测试)
2) 制定并实施策略以缓解或控制使用相关危害
3) 通过人因验证测试(模拟使用验证测试或临床验证测试)证明设备使用的安全性和有效性
在本文中,最后一步即验证测试正在接受审查。美国食品药品监督管理局模拟使用验证测试的建议被用作参考[7]。在下文中,在接下来的部分中,我们将指出当前评估医疗实践中的两个主要缺陷设备
1.2 错误操作的指示器
当前在医疗设备技术研究中的实践存在若干方法学上的不足[8]。一个关键发现是,主要报告的是粗略的结果测量,而非追踪交互过程并重点关注认知过程,从而缺乏对用户-设备交互的深入分析。任务完成的过程是一个关键的性能指标,因为它揭示了有关认知过程的信息。
此外,它还能揭示接近失误的情况,即用户以错误或非最佳方式操作设备的事件。虽然迷失和路径偏差在可用性测试中是广泛使用的措施,特别是在网站导航的情境下 [9,10], ,但在医疗设备技术的研究中却很少被考虑。
然而,研究表明,即使最终未导致错误的任务结果,如今输液泵的操作编程在很大程度上仍偏离了规范性标准[11]。结果显示,在使用当前输液泵的菜单结构时,仅有69.5%的按键操作是目标导向的。直接比较表明,参与者完成任务目标所需的按键操作比必要数量多出57.1%。因此,尽管任务目标最终得以实现,但仍表现出大量的规范路径偏差。
规范路径偏差的频率是系统安全性的一个重要指标:每次偏离执行任务的最佳方式都会增加出现次优结果的风险,即使操作员在大多数情况下能够采取纠正措施。此外,偏差可能导致额外的认知负荷,在节奏快、存在中断和时间限制的环境中(如重症监护、手术室)普遍存在认知负荷[11]。
总之,对交互序列层面上的错误操作进行分析被认为是衡量安全性的更详细且更真实的指标。此外,已证明该分析支持定性和定量分析。
1.3 评估学习
当代验证研究的另一个缺点是与被研究医疗设备的交互时间有限。特别是,在单次接触研究中无法评估练习带来的性能提升速率。
新型设计即使从人体工程学角度来看更优越,也需要医务人员重新学习使用传统设计时形成的习惯性操作流程。由于负迁移[12,13]以及缺乏动机(即所谓的生产偏差[14]),以往使用传统设备的经验甚至可能阻碍对新界面的学习。
然而,目前大多数研究都是基于用户单次接触设备[5,15,16],得出结论,因此无法考察新界面所需的学习负担。这种情况可能有两种结果:在测试新型设计时,初始性能可能较低,但随着用户逐渐适应设计的独特性,性能会迅速提升;或者初始性能处于中等水平,且保持不变,因为该设计未能促进更优使用策略的采用。在这种情况下,建议重新设计或加强训练以缓解问题。
一个相关的问题是将新型设计与传统设备进行比较,而这通常并不公平。用户往往对特定界面拥有多年的使用经验,尽管界面设计可能存在缺陷,但他们通常已达到较高的操作水平。在直接对比中,任何新型界面在初次使用时的表现通常都较差,即使其设计在用户适应后更为优越。当前的FDA指南[17],部分考虑到了这些问题,要求验证研究必须使用接受过与实际用户相同水平训练的参与者进行。如果实际用户的培训水平不同,则建议相应地调整样本构成。如果谨慎执行,这种方法能有效减少新型设计与传统设备比较时的潜在偏差。然而,采用此类策略无法揭示新设计的可学习性以及安全过渡所需的培训量。
只有纵向研究能够追踪个体的学习轨迹,以此作为可学习性的评判标准,并用于估计所需培训[18]。
2 引入扩展验证协议
上述缺点表明,有必要对现有的医疗器械研究验证测试协议进行扩展。所提出的验证协议基于对美国食品药品监督管理局建议的两项扩展:其中一项通过一种新颖的、可复制的方法来弥补“过程追踪技术”的不足,以更细致地呈现用户的任务完成过程。本质上,该方法评估用户在多大程度上偏离了任务完成的最优路径。这一方法已在另一篇出版物中详细描述,因此此处仅重复其核心概念。
其次,提出了一种纵向研究设计,参与者通过多个会话完成任务集的不同变体,从而能够追踪其性能的进步情况。此外,该研究设计为被试内设计,允许进行用户层面的分析,例如训练进展中的差异性分析。开发了一个可扩展的参考回归模型,可用于检验用户表现的多个关键方面。随后,通过一项案例研究展示了扩展协议的实施过程,其中将一种新型注射泵界面与传统设计进行了比较2。
2.1 过程追踪方法
为了追踪参与者的任务完成过程,本研究结合了认知系统工程中的一种任务建模技术[20]以及一种生成路径偏差距离度量的算法[21] 。为了获得适用于定量与定性分析的过程追踪数据,采用了一系列分析步骤:(1)开发针对观察到的界面交互的编码方案;(2)应用编码方案实现观测值之间的序列对齐;(3)应用算法检测任务完成过程中的路径偏差;(4)将算法输出转化为定量与定性分析。
编码方案基于一种人因工程建模技术,即目标、操作符、方法和选择规则(GOMS)模型[22]。GOMS模型为在操作层面上表示任务(的完成)提供了一个框架。本质上,完成任务(目标)的交互序列(方法)由低层次动作(操作符,例如“启动输注”)组成。
2 一项并行发表的论文正在审阅中,该论文涵盖本研究的结果(但不包括方法的详细信息)。
首先,创建一组操作员。为了达到合适的粒度,应采用包含大量数据探索的迭代过程。为每个操作员分配一个不同的字母,因此交互序列可以表示为一个字母字符串。使用这组操作员,观察到的交互路径以及每项任务的规范路径都被描述为字母字符串。规范路径是完成特定任务的最优交互序列。它们可以通过参加护理人员的培训课程、查阅用户手册以及进行个体深入交互,研究界面功能来确定。当存在多种规范方式完成某一特定任务时(例如输入速率和时间的顺序是灵活的),则编码多个规范路径。诸如插入注射器、打开卡带或连接泵的电源等物理步骤未被建模。本研究仅关注与界面相关的任务,即涉及显示屏交互的任务。
此外,可以通过统计每个操作符所属的原子按键次数来创建按键级模型[22] 。完成任务所需的按键次数可作为使用效率的衡量指标。例如,我们对‘调整输注速率’操作符进行编码。如果需要将输注速率从2调整到4,则新界面所需的相关按键操作为4次:停止输注(1次按键),将速率从2调整到4(2次按键),重新启动输注(1次按键)。由于参考界面的菜单结构更为复杂,因此需要更多的按键操作。从逻辑上讲,将输注速率从2调整到5.5所需的按键次数会有所不同。因此,不同任务因数值不同所需的按键次数也不同,但在不同界面之间始终具有可比性。
对规范路径和观察路径的编码将为每次观察和任务生成两个不同的字母字符串。为了衡量偏离最优路径的程度,我们提出使用莱文斯坦算法[23]。选择莱文斯坦距离是出于方法论上的考虑:该方法已在其他可用性研究中成功应用[24]。本研究旨在将莱文斯坦距离应用于医疗器械的交互,并检验其在此情境下的可行性。莱文斯坦算法通过识别将一个字符串(观察到的交互)转换为另一个字符串(规范路径)所需的最小编辑集(插入、删除和替换)来比较两个字母字符串。所得的莱文斯坦距离即为编辑操作的数量。当两个字符串相同时,该距离为零;其上界为较长字符串的长度。
为了对界面进行定量验证和比较,莱文斯坦距离可作为衡量偏离规范路径的指标。此类偏差通常可被视为菜单空间中的迷失的指示器,并伴随有危险后果的风险。
2.2 形式匹配和事件记录
当界面需要进行下一次设计迭代时,我们建议通过使用结构化报告表更深入地记录异常交互序列。这些报告将关键事件与特定的界面设计方面联系起来。例如,[25]中的报告表按情境、原因、故障、结果和所需的设计变更来记录重复发生的事件。在本案例研究中,我们进一步扩展了报告表,记录了相关偏离是否最终导致了错误的任务结果。这些事件报告表可用于识别可能导致危险后果的路径偏离的重复模式,并将相似事件整合为一致的可用性问题描述[26]。
2.3 纵向测试方案
在可用性测试中,通常会规定一组具有代表性(或其他选择标准)的任务,并让每位参与者完成每个任务一次。对于即用型系统而言,这种首次接触的测试方案可能完全足够,因为结果能够反映系统的自解释性。然而,对于安全关键环境中的系统,首次接触测试可能因多种原因而不合适。
首先,对于专业用户而言,长期来看更高效率比初次接触时的直观使用更为重要。其次,专业用户很可能已经使用过具有不同界面的其他系统。有可能在初次接触时出现负迁移,从而引入偏差。第三,研究目标可能涉及与当前正在使用的设备进行比较。测试参与者可能已经达到了最大性能的平台期,这将对任何创新设计造成不公平的情况。第四,该研究的辅助目标可能是评估达到可接受的性能水平所需的培训需求。
为了克服这些局限性,我们提出了一种纵向测试方案,该方案包含多次测试会话,在这些会话中连续采用相同指标来评估相同任务的变体。此类测试方案可直接比较在不同系统接触程度下的性能表现。我们建议研究至少包含三次会话,以便了解整体学习速度,既包括绝对水平,也包括与其他设计的比较。
此外,我们建议在设计和任务中始终采用被试内比较。结合使用混合效应模型的现代统计回归技术(见2.4.2),可以进一步得出关于观察到的性能同质性的结论。随机效应,特别是斜率随机效应,能够捕捉个体反应的多样性,这在安全关键环境中至关重要:任何性能上的平均改进都可能伴随着一部分用户(或任务)的表现受到阻碍。在被试间设计中,所有影响变量原则上都与参与者混杂在一起,导致用户与设计之间的交互效应无法追踪。
进行如此完整的被试内研究需遵循验证测试的常规步骤,但还需要考虑一些额外因素。首先,必须编制一组能够代表操作流程的用户任务。由于测试任务的数量有限,可能需要根据关键性来选择任务。在所提出的纵向方案中,参与者会多次遇到每个任务。由于目的是评估用户在多大程度上获得了对设备界面的心理模型,而不是他们对特定操作序列的记忆程度,因此建议为每次会话创建尽可能多的任务变体。这些变体应具有相同的情境和操作目标,但在细节上有所不同,例如参数值。进行任务级分析可能具有额外的意义,特别是用于识别仍然存在的可用性问题。通常可以假设任务之间存在一定的迁移,这会导致任务给出的顺序与任务性能本身之间产生混杂。因此,我们建议采用随机化(或其他任何平衡方案)来安排任务顺序。当任务具有自然顺序时,此规则可有例外,例如打开设备总是第一步。正如将在案例研究中展示的那样,纵向方案也可用于比较两种设计,使用被试内设计。在这种情况下,可能需要创建更多的任务变体,并建议对参与者接触两种设计的顺序进行平衡。
另一个关键考虑因素是要记录的可用性度量。通常建议捕捉ISO可用性定义中所述的全部三个标准:有效性、效率和满意度。所有这些标准都可以通过各种客观和主观指标来表示(参见霍恩贝克,2006[26],以获取概述),具体选择取决于特定的研究问题。在医疗器械领域,重要的是要捕捉错误倾向这一方面(不应将其视为稳定的个体特征,而应视为从实时用户-设备交互中产生的涌现属性),最好采用所描述的过程追踪方法。
技术以及认知负荷。此外,使用效率可以通过完成时间或序列长度(完成步骤数)轻松捕捉。
2.4 参考回归模型
扩展验证协议在多个会话中收集多种类型的多个结果变量(计数、时间、评分)。经典参数统计方法(如线性回归和方差分析)在处理此类数据时存在严重局限性:首先,结果变量(如错误次数或响应时间)违反了高斯模型的分布假设;其次,所提出的复杂重复测量设计违反了经典统计检验的观测值独立性假设。
为了充分(且正确地)利用纵向设计所获得的数据,我们提出了一种基于经典线性模型两个扩展的参考模型:首先,被称为广义线性模型(GzLM)的框架增强了对结果变量类型的灵活性;其次,通过(广义)线性混合效应模型(GLMM),可以有效地分析复杂的多层次研究设计。由于这两个扩展在人因工程和医疗器械可用性研究中很少被采用,因此有必要介绍其主要思想。随后,将建立一个参考模型,用于对纵向测试研究中获得的数据进行推断。
2.4.1 广义线性模型
经典的线性模型形式为:
Eq.1
其中是观察到的结果值(例如响应时间),是预测值。在经典线性模型中,假设服从正态分布,以预测值为均值,标准差为。观测值来自具有不同均值但相同离散程度的正态分布。预测值由预测变量 和线性系数的线性组合得出。和 均为观测数据,因此已知。系数 未知,而估计这些系数正是回归模型的实际作用。预测值可被视为每个数据点的“最佳估计”。
严格来说,经典线性模型只能处理具有范围且误差项为正态分布并具有恒定方差的结果变量。这些假设通常不适用于可用性性能指标。例如,计数错误永远无法
取负值。计数变量通常具有严重右偏的残差分布[27] ,且随着预测值的增加而增大。另一个例子是任务完成率,它在下界(零次成功)和上界(任务数量)均有界限。这类变量在接近下界时通常呈左偏,在接近上界时则呈右偏。此外,经典线性模型通过直线拟合数据,这也适用于线性模型所做出的预测。回归线延伸至之间,这很容易导致对响应时间及其他有界测量产生不可能的预测。
广义线性模型(GzLM)将线性模型推广,以适用于更广泛的结果变量类型。
GzLM 是一类模型,其中每个成员专门处理某些典型的变量类型。最著名的三种是泊松回归、逻辑斯蒂回归和高斯回归。泊松回归适用于理论上没有上限的计数变量,例如错误次数。逻辑斯蒂回归处理具有上限的计数数据,例如在给定的一组任务中的成功次数。高斯回归就是具有正态分布残差的经典线性模型。所有这些模型都基于各自对测量值分布方式的假设(泊松、二项式或高斯)。此外,它们通过建立线性关系,避免产生不可能的预测值。但这需要付出一定代价:系数可以像往常一样在线性意义上使用,但其结果不再是直接的预测值,而是线性预测子 ,后者几乎不具有自然解释意义。为了在原始尺度上进行定量陈述,每种广义线性模型都提供了各自的转换函数。在报告结果的过程中,我们将演示这种转换,并在自然尺度上得出定量陈述。
2.4.2 混合效应线性模型
广义线性模型在线性、残差分布和方差结构方面推广了线性模型。但它们继承了经典线性模型的另一个强假设,即观测独立性。这一假设在被试内设计中几乎必然被违反,因为同一人的多个观测值通常是相关的。
高效处理重复测量的现代方法是线性混合效应模型(LMM)。在线性混合效应模型中,观测值按样本中的实体(例如参与者)进行划分。这些划分需要标识变量(例如: participantID),这些标识变量在形式上与因子相同,但其处理方式不同于所谓的固定效应因子,如实验条件(例如比较中的设计)或人口统计学组(例如性别)。
随机效应通过同时估计个体参数和组级(正态)分布来处理此类分组变量。例如,在估计一组参与者中的个体表现水平 时,通常假设 是正态分布的:
Eq.2
固定效应主要用于对因素水平间的差异得出结论,例如两种医疗设备的竞争性设计。报告的参数反映组均值差异。相比之下,当主要关注总体变异程度时,则适用随机效应。因此,主要报告的是组级分布的方差或标准差,而非个体 (公式2)3。
通过明确表示数据的分组结构,随机效应解决了相关观测值的问题。同时,借助混合效应模型,可以更深入地考察参与者之间性能效应的一致性。例如,在验证测试中一个关键问题可能是用户从新型设计中获益的程度是否具有一致性,这与仅仅关注平均收益不同。此外,任务本身也可被视为样本,并被建模为随机效应[28]。引入任务级随机效应可以评估新型设计的任何观察到的优势在不同任务间是否具有一致性。
下文通过一个示例说明线性混合效应模型的基本要素,其中在多个参与者中重复测量性能指标,以比较两种设计(L表示传统设计,N表示新设计)。随后,该示例将扩展为纵向验证方案的参考模型。
我们摒弃了纯粹的固定效应模型,在该模型中,性能指标是在完全被试间设计(即无重复测量)下观测得到的。如同公式1所示, 是截距,在此表示使用参考设计L时的平均性能, 是一个因子,代表设计和。参数 包含设备L与N之间的整体性能差异,而 是残差项。接下来,假设实验采用重复测量的被试内设计,即同一参与者重复使用两种设计。
为了考虑参与者在使用设计L时的个体差异,模型中加入了随机效应 ,从而将截距分解为组级别成分 和参与者级别成分 。因此,该效应被称为截距随机效应
3 然而,存在用于比较随机效应各个水平的应用(Baayen, Davidson, & Bates, 2008;Gelman, Hill, & Yajima, 2012年)。
效应。正式地说,截距随机效应可以被视为交互效应,其中设备L的平均性能取决于参与者。
此外,我们可以假设两种设计之间的性能差异在个体之间有所不同,这一点通过额外的斜率随机效应 来处理。同样,前述的固定效应被分为组级别部分和参与者级别部分 ,这本质上是交互效应,表示参与者相对于组平均值的偏差。通常情况下,当参与者级别效应较大时,个体之间的差异较大,相应的固定效应很难代表测试组的整体情况,这可能引发关注。
Eq.3
2.4.3 参考回归模型
在介绍了广义线性混合效应模型和线性混合效应模型的一般概念之后,将提出一个参考回归模型,该模型通过以下特性来适应所提出的纵向测试方案。
- 可以使用不同的性能指标作为结果变量。
- 可以相互比较两种(或多种)设计。
- 在一组任务上采取措施。
- 跟踪多个会话中的训练过程。
- 参与者水平随机效应捕捉参与者性能的差异。
- 任务级别随机效应捕捉任务之间的差异。
正式地,参考模型是公式3的一个扩展:针对两种设计( )的被试内比较,包含参数 , 以及相应的参与者层面的截距和斜率随机效应和 。将在模型中添加会话的预测变量 、任务层面的随机效应 、各种斜率和交互效应,以及异方差残差,并在下文中进行解释。
表1总结了参考回归模型的参数。请注意,随机效应通过其组级标准差表示,因为通常人们关注的是变异程度,而非各个具体水平4。
另一个固定效应 用于捕捉会话中的学习进展( )。人们可能会倾向于在此处使用协变量,但这意味着线性增长,而学习轨迹通常是非线性的。5因此,会话固定效应被引入为一个有序因子。第三个固定效应 是设备与任务之间的交互,用于捕捉学习轨迹的差异。
通过多因子设计,可以检验多个相关研究问题,这将在案例研究中进行演示。当预测变量为因子时,通常需要精细调整所谓的对比方式,以更紧密地匹配研究问题。在大多数线性模型的实现中,默认使用处理对比编码。当需要考察一种或多种处理相对于基线条件的效应时(例如在对照临床研究中),该方法是合适的。在处理编码下,截距参数代表一个参考组,例如第1次会话中的设计N。其余所有参数均解释为与参考水平的差异。正如将要展示的,使用处理对比可以得出关于设计直观性的结论。如果首次接触设备N时的性能令人满意( ),且训练效果以及 均较小,则可以得出用户能够“开箱即用”该设备的结论。如果更关注完成全部训练后的性能差异,只需将参考水平改为第3次会话,并将解读为设计N在第3次会话的最终性能即可。在重复对比编码(也称为逐次差异编码)中,截距表示参考设计(此处为设计N)在所有会话中的平均性能,而 则逐步表示从第1次到第2次会话、以及第2次到第3次会话的学习进展。当 明显小于 时,参与者接近达到最大性能。
上文我们已经为参与者引入了截距随机效应( ),以及在设计上的斜率随机效应( ),这代表对设计的响应存在差异。考虑在组级别观察到中等平均学习效果的情况。
4 然而,比较随机因子的水平仍然是可能的。例如,可以在不同设计之间比较各个任务。事实上,随机效应非常适合进行多次成对比较,因为在事后比较中无需进行校正[57]。
5 更准确地建模学习轨迹的方法是非线性回归,例如使用指数函数[48]。然而,这种尝试通常需要更多的重复次数[49] ,并且需要特殊软件来处理(广义)非线性混合效应模型。
一方面,这可能意味着所有参与者都表现出足够的学习效果;另一方面,这也可能是少数人学习速度极快而其他人学习较慢的结果。存在一个学习非常缓慢的用户子集是极为不利的,因此应进行更仔细的审查。为了能够分析训练中的变异性,在参考模型中加入了斜率随机效应 (预览图3)。
数据集中的另一个重复测量水平是任务:所有任务都在参与者之间被重复测量。同样,需要使用随机效应来调整非独立性问题。同时,评估由任务引起的性能差异也具有重要意义。例如,仅部分任务可能会严重阻碍性能,而其他任务则可以轻松完成。此外,任务的性能可能因设计而异,这一点通过另一个斜率随机效应来体现(预览图6)。
表1 两种设计N(= novel)和L(= legacy)在三个方面的参考回归模型元素 会话和一组任务。解释指的是以设备N和第1次会话为参照的处理对比 参考组
| 参数 | R 模型项(MCMCglmm) | 解释(在处理对比下) | 固定效应 |
|---|---|---|---|
| 1 | 第一次会话时参考设备N的性能 | 设备 | 设备L和N在第一次会话时的设备之间的差异 |
| 会话 | 向使用设备N的会话s转变 | 会话:设备 | 设备L的变化(相对于N的变化) |
| 参与者水平随机效应 | 参与者 | 参与者在整体表现上的差异 | 设备N在第一次会话( ) |
| 设计:参与者 | 参与者在设备之间的差异中的变异 | ( ) | idh(会话: 参与者) |
| 参与者在趋向于会话s的变化中的变异 | 设备N ( ) | 任务级别随机效应 | Task |
| 设备N的整体表现中的任务变异 | 第一次会话 ( ) | 设计:任务 | 任务变异的设备间差异( ) |
| 残差 | idh(会话):单位 | 会话s的未解释变异量,适用 | 仅限于高斯回归。 |
最后考虑到,性能通常会随着训练而提高,但也经常趋于稳定,导致变异程度降低。这将导致所谓的异方差性(组内方差不齐),通过每个会话水平分别设置独立的残差分布来处理这一问题 。
2.4.4 报告回归结果
作者们担心,目前在社会科学中普遍存在的“零[假设显著性检验]仪式”[29]对于医疗器械安全性等高风险应用研究而言极不恰当(详见[30]的详细讨论)。因此,优先考虑对参数大小的解释(即齐利克和麦克洛斯基所说的´实际效应´ ,另见[31])。相应地,在本案例研究中将不报告p值(另见[32])。取而代之的是,通过绘制完整的后验分布或给出95%可信区间,来表示关于参数位置的信念区域,从而说明确定性的程度。
此外,图表可以显著支持模型构建和模型检验[33],,并且是有效传达结果的必要条件。由于篇幅限制,我们仅展示部分图表:spaghetti图用于说明个体水平差异(预览图 3),系数图用于比较效应的强度和不确定性(预览图 4),完整的后验密度图(预览图 6),以及交互作用图与后验密度的组合图(预览图 7)。
3 案例研究
3.1 研究背景与目标
在本研究中,一种新的注射泵界面6 得到了验证(图1a),该界面是通过广泛的人因工程过程设计的。所采用的特定方法是情境化认知工程[34], ,这是一种通过三个阶段为复杂环境开发设计概念的系统性方法7 。首先,基于现有文献、用户访谈和任务分析,对输液泵的使用进行了分析和描述。
6 根据美国食品药品监督管理局的定义,注射泵是一种“[a]n 外部输注泵,利用活塞式注射器作为液体储液器并控制液体输送”的设备。其他输液泵则使用可延展的球囊储液器来容纳和输送液体,被称为‘弹性体泵’。注射输液泵是更广泛的输液泵类别中的一种实例。在本文其余部分,我们将注射输液泵简称为 ‘输液泵’。 7所采用的情境化认知工程方法将在另一篇独立出版物中详细讨论,该出版物目前正在审阅中。
接下来,通过收集用户需求来指导设备设计。因此,采用纸质原型制作[35]的方式迭代开发了界面。基于广泛的用户反馈,开发了一个动态模拟系统,用户可以与其交互,并记录用户的按键操作。随后,进行了涉及35名护士和麻醉医师[36]的形成性可用性测试研究,并进行了一次迭代。作为参考设备,采用了Braun Perfusor® Space的界面;其模拟版本通过现有的电子学习模块获得(见图1b)。
新设计)
参考设计(Braun))
图1 测试的输液泵界面
3.2 方法
3.2.1 实验设计
采用2 x 3(设计 x 会话)的被试内设计。在两种界面下,参与者都需要完成一组八个任务。任务在三次会话中重复进行。虽然在实验研究中完全随机的任务顺序是理想的,但在测试设备时,任务的自然顺序同样重要。作为折衷方案,创建了三种自然任务序列变体,参与者以随机顺序经历所有三种序列。只有任务1(开启设备)和任务9(停止设备)始终作为第一个和最后一个任务。被测设备的顺序则完全随机化。
3.2.2 样本
样本由25名护士(20名女性,5名男性)组成,分别来自普通护理(GCU,N=13) 和重症监护(ICU,N=12)。使用输液泵的经验范围从零到31年不等(M = 15.2,SE = 1.92)。输液泵的使用频率从零到每天四次以上不等。参与为自愿,招募采用非概率滚雪球抽样方式进行。样本仅包括对Braun Perfusor® Space 注射泵零经验的参与者,从而使得两个界面的先前经验保持一致。
3.2.3 任务和使用场景
总共选择了八个任务。任务的选择基于文献[5,15], 、专家访谈以及先前获得的用户需求(见表2)。为了在三次会话中重复执行这些任务,为每个任务创建了三个变体,这些变体涉及相同的用户操作和界面功能,但在具体的患者情景和内容(例如速率和药物类型)上有所不同。针对两个用户组(GCU和ICU)创建了不同的患者情景,以适应各自的工作环境。这主要体现在不同类型的药物和输液速率上,其中ICU参与者的输液速率更高。最后,将任务组合成三个任务变体集(每个用户组各一组),以便对界面功能进行被试内重复测试。
表2. 本研究中测试的关键任务和功能
| Task内容/测试功能 |
|---|
| 1 启动输液 |
| 2 调整参数并启动输液 |
| 3 在输液进行中给予(手动)推注 |
| 4 在输液进行中调整输液速率1 |
| 5 在输液进行中调整输液速率2 |
| 6 获取诊断信息 |
| 7 在输液进行中给予(自动)推注 |
| 8 停止并关闭输注 |
3.2.4 仪器与实验装置
所有会话均被录像记录。界面在平板电脑(富士通 StylisticQ550,屏幕尺寸10.1英寸,1280x800像素)上以其原始尺寸和质量呈现。参与者通过平板电脑的触摸屏操作界面并完成指定任务。预编程的任务加载在外接笔记本电脑上,通过无线网络发送到平板电脑。按下的按键的日志文件保存在平板电脑上,后续用于分析。
3.2.5 实验步骤
研究在参与者所属医院的隔离房间内进行,房间内设有人工或自然光照。每次实验试验均有两名研究人员在场:一名负责指导参与者,另一名负责在平板电脑上管理任务呈现。
两家医院机构均不要求进行正式的人类研究伦理审查,前提是所有参与者在招募时已充分了解研究目的。参与者获得了关于实验的一般信息、知情同意书和保密协议。签署知情同意书后,参与者填写了一份关于使用输液泵的经验和人口统计学信息的前问卷。随后,向参与者播放一段介绍泵的基本功能的培训视频。该视频涵盖了两种输液泵界面的一般功能,但未说明如何执行具体任务。接着,实验开始,参与者执行第一组任务变体。每项任务均印在一张纸上,由研究人员交给参与者。在执行任务期间,记录客观绩效指标。完成第一台设备的任务后,播放第二台输液泵界面的培训视频,参与者使用第二台泵完成第二组任务变体。除培训视频外,此流程重复进行,直至每种界面均完成各自的任务集变体(共六项测量)。在此过程中,研究人员仅提供与任务相关的指令,不与参与者进行其他口头交流。当参与者无法完成某项任务并口头表明时,该任务将被中止并标记为错误的,随后参与者进入下一项任务。实验试验结束后,进行一次事后访谈,了解参与者对两种界面使用偏好的看法。每次实验试验大约持续90分钟,所有参与者均获得经济补偿。
50欧元。作为参考,表3展示了执行各个研究阶段所需时间的估算。
表3. 各研究阶段所需时间的估计
| 阶段 | 单位 |
|---|---|
| 设计任务 | 24小时 |
| 数据收集(包括设置) | |
| 数据收集(包括设置) | 2小时(每位参与者) |
| KLM编码 | 4小时(每位参与者) |
| 结构化事件记录 | 2小时(每位参与者) |
| 定性数据分析 | 120‐160 小时(总计) |
3.2.6 性能指标
记录了以下性能指标:成功完成任务的数量、与规范路径的偏差、完成时间、按键次数以及通过评级量表心理努力(RSME)获得的自报心理需求,[37],皮肤电活动作为客观心理负荷的指标,以及通过结构化事后访谈获得的主观偏好。然而,本文仅展示了与规范路径的偏差、按键操作、完成时间和RSME评分。任务成功通过视频记录的事后分析进行评分。如果用户实现了先前设定的预期结果,则该任务被评定为成功完成。规范路径偏差通过应用上述过程追踪技术进行测量。
3.3 回归结果
以下所示的参考回归模型分别对三个性能指标进行了独立分析。进行了三项略有不同的分析,以展示不同的目的。第一项分析针对心理负荷,采用高斯模型和标准处理对比,我们解释了固定效应和随机效应的基本解释,并进一步检验了残差结构。第二,使用泊松回归分析与规范路径的偏差,我们采用连续差异对比编码来演示如何利用链接函数进行定量陈述。第三,将仅含交互项的参考模型变体应用于完成时间指标,采用指数回归。这种变体适用于图形化地总结回归结果。配套教程演示了分析的所有步骤,并深入介绍了数据探索、模型构建和收敛性检查的更多细节。
所有性能指标均表现出显著的整体变化。1200次试验中有883次成功完成,各会话中呈现普遍的正向趋势,并且新设计具有明显优势,如图2所示。视觉分析表明,失败的任务通常与更高的心理负荷、更多的路径偏差以及更长的完成时间相关联。
3.3.1 心理负荷
心理负荷通过每次任务后的自我报告评分进行评估,评分范围为0到150。我们针对心理负荷提出了以下问题:
- 新界面是否更直观易用,从而在第1次会话中心理负荷更低?
- 心理负荷是否会随着训练而降低?
- 不同设计在训练过程中心理负荷下降速度上是否存在差异?
视觉分析表明,大多数参与者通过训练得到了提升(图3)。总体而言,布劳恩设计的心理负荷更为明显。值得注意的是,参与者在使用评分量表的总区间上似乎存在很大差异,指向最小和最宽的范围。这使得参与者水平随机效应出现显著变异的可能性增加。
会话设置了处理对比,以第一次会话作为参考水平。因此,截距参数表示第1次会话中新设计的整体工作负荷判断。由于采用了高斯回归,线性预测子与观测值具有相同的量纲,因此参数可解释为心理负荷尺度上的差异。
图4展示了固定效应的位置和95%可信区间。位置是后验分布的中心趋势,表示真实值(组均值或变化量)最可能所在的区域。可信区间总结了估计的不确定性,此处我们采用传统的95%可信区间来表达不确定性的程度:可以有95%的把握认为参数位于该范围内。显然,最强的效应体现在第一次会话中Braun设计的劣势。学习效应的估计值较小,但似乎具有更高的确定性,这由更窄的CI条形图所表明。
表4:心理负荷的固定效应结果,后验分布总结为众数(位置)和95%置信区间(确定性)
| beta 参数 | 位置 | CI.025 | CI.975 |
|---|---|---|---|
| (截距) | 18.447 | 10.071 | 26.602 |
| 设计Braun | 10.193 | 3.288 | 16.740 |
| 会话2 | -6.084 | -10.069 | -1.786 |
| 会话3 | -9.983 | -14.123 | -6.068 |
| 设计Braun:会话2 | -2.128 | ‐7.915 | 3.506 |
| 设计Braun:会话3 | -3.722 | ‐9.242 | 1.770 |
为了进行定量解释,参考了表4中给出的估计值。相比之下,布劳恩设计在第1次会话中的工作负荷判断明显更高( )。97.5%的确定性表明该差异至少存在。新设计从第1次会话到第2次会话表现出显著的训练效果( ),总体上(从第1次到第3次会话, )也表现出显著的训练效果。这两个估计均具有中等程度的确定性。对于布劳恩设计,交互效应表明训练以略高的速率发生(和 )。然而,由于不确定性较高,无法确认使用布劳恩设计学习更快。
图3中的spaghetti图表明,参与者在使用心理负荷评分量表时存在显著差异。通过检查随机效应变异,我们可以进一步得出关于用户多样性的结论。变异以围绕相应固定效应的变异的标准差()来表示。图5显示了随机效应变异和残差的大小。同样,95% 置信区间表示估计值的不确定性。
我们首先观察到,最大的变异出现在观测水平(单位),这表明测量结果存在噪声。参与者在使用新型设计时的表现(截距)差异很大,且他们在使用传统设计时表现变差的程度也各不相同。学习轨迹的方差可以忽略不计。正如预期,任务之间也显示出较大的方差。然而,由于不确定性的范围较大,无法得出确定的结论。这是样本量较小( )的结果。
表5:心理负荷的参与者层面的变异(标准差),后验分布总结为众数(位置)和95%置信区间(确定性)
| 西格玛 参数 | 位置 | CI.025 | CI.975 | 参与者 | 10.122 | 6.766 | 14.871 |
|---|---|---|---|---|---|---|---|
| 设计:参与者 | 5.346 | 3.407 | 8.765 | 1.参与者 | <.001 | <.001 | 6.085 |
| 2.参与者 | <.001 | <.001 | 2.215 | 3.参与者 | <.001 | <.001 | 4.567 |
| Task | 6.727 | <.001 | 14.083 | 设计:任务 | .272 | <.001 | 9.553 |
| 1.单位 | 22.259 | 20.783 | 24.022 | 2.单位 | 18.759 | 17.492 | 20.207 |
| 3.单位 | 16.844 | 15.688 | 18.191 |
表5证实了参与者在第1次会话中使用新设计时性能存在显著差异( ),以及布劳恩设计的劣势( )。目前尚不清楚这是由于评分量表使用方式的不同,还是工作负荷真实差异所致。通过训练心理负荷降低的程度差异似乎可以忽略不计( )。然而,不同任务所产生的工作负荷差异很大( )。这些差异对两种设计的影响基本相同,这从非常小的 可以推断出来。结论是,心理负荷评分表明,新设计更易于直观使用,因为在初次接触时引起的心理负荷更低。然而,对于这一效应的实际意义仍无法得出明确结论。新设计的学习情况也是如此。可能的原因是,参与者使用评分量表的方式存在较大差异,导致了较宽的可信区间。
3.3.2 与规范路径的偏差
表6:路径偏差的固定效应,后验分布总结为众数(位置)和95%置信区间(确定性)
| 参数 | 位置 | CI.025 | CI.975 |
|---|---|---|---|
| (截距) | -1.014 | -1.727 | -0.325 |
| 设计Braun | 1.595 | 0.712 | 2.557 |
| 会话2‐1 | -0.370 | -0.650 | -0.091 |
| 会话3‐2 | -0.175 | -0.490 | 0.122 |
| 设计Braun:会话2‐1 | 0.139 | -0.172 | 0.459 |
| 设计Braun:会话3‐2 | -0.029 | -0.366 | 0.309 |
在泊松回归中,线性预测子通过指数函数与预测值相关联。报告泊松回归结果的一种便捷方法是将指数化参数解释为乘法效应,此时加和变为乘积。8。
采用新设计后, 路径偏差平均出现的次数比布劳恩设备少。新设计显示出明显的训练效应,在第2次会话中,路径偏差下降至 。从第2次会话到第三次会话,偏差数量似乎略有增加,但该效应实际上接近于零且具有高度不确定性。布劳恩设备的初始培训效果是新设计的 倍。从第2次会话到第三次会话,其训练速率比新设计高出若干倍。
8 乘法模型可根据以下原则解释为加法线性模型:。对数线性模型在链接函数下是加法线性的。
所有参与者层面的变异估计值几乎为零,表明参与者之间的同质性很高。仅有一个效应值得注意:尽管任务在引发新设计偏离的程度上似乎相当同质( ),但参与者对设计的反应存在明显差异( )。这表明某些任务倾向于因设计而引发偏差变化。
需要回顾的是,随机效应从技术上讲只是因子,其因子变异通常以标准差来概括。然而,仍有可能对单个任务进行分析,使用 。图6 显示了任务与设计交互效应的完整后验分布 。对于任务1至4、6和7,设计似乎没有产生显著差异。相比之下,在任务5中,布劳恩设计引发的偏差相对较少,但任务8的偏差要大得多。请注意,这些差异并非绝对措施,而是用表示的整体趋势的偏离。
总之,采用新设计后,大多数参与者在第一次会话中几乎未出现路径偏差,并在第2次会话时似乎已达到最佳性能平台期。布劳恩设计的路径偏差频率高出近一个数量级,且下降速度较慢。任务层面的斜率随机效应提示需对与调整输注速率相关的潜在可用性问题进行深入分析。
3.3.3 完成时间
图7显示了组均值转换到原始尺度后的交互作用图。完整后验分布被叠加在下方以表示不确定性的水平。该图表明,在所有训练水平下,新设计的性能均更优。同时似乎两条曲线都趋近于渐近线。这意味着即使经过更长时间的训练,新设计仍将继续保持更高的效率。
表7:完成时间的固定效应结果,后验分布总结为众数(位置)和95%置信区间(确定性)
| 参数 | 位置 | CI.025 | CI.975 |
|---|---|---|---|
| 新设计:会话1 | -3.078 | -3.524 | -2.629 |
| Braun设计:会话1 | -3.612 | -4.057 | -3.168 |
| 新设计:会话2 | -2.455 | -2.930 | -2.021 |
| 设计Braun:会话2 | -3.039 | -3.491 | -2.600 |
| 新设计:会话3 | -2.210 | -2.655 | -1.767 |
| 设计Braun:会话3 | -2.798 | -3.243 | -2.364 |
3.4 定性分析
除了通过GOMS编码系统提取交互序列外,还对特定的偏差模式进行了定性探索。利用规范路径偏差和错误的结构化报告来识别剩余的可用性问题。结合定量信息和纵向方案,实现了高度集中的问题识别,并根据严重性对设计问题进行了排序。严重性通过三个标准进行判断:发生频率、偏差在各会话中的持续性以及潜在风险。在持续性方面,若问题从第1次会话到第3次会话的发生频率下降不到70%,则被视为高度持续,并需进行更深入分析。例如,新设计中的若干关键问题涉及诊断信息的获取、推注给药以及主要数值的调整。参与者经常获取错误的诊断信息,混淆待输注体积与已输注体积。这表明界面术语仍需更好地与特定显示的系统状态信息保持一致。一些问题与推注功能相关,例如自动推注的重复给药、在给药前调整与推注功能无关的设置,以及自动推注与手动推注的混淆。这些问题导致了过量给药或主设置的错误调整。这说明诊断反馈和界面控制仍需改进。以及推注功能的独特性。另一个常见问题是输注在仍在运行时被重新启动,这表明输注状态的可见性需要更清晰地显示在显示屏上。
4 讨论
本研究的目的是实施一项用于医疗设备可用性验证测试的扩展协议。以美国食品药品监督管理局(FDA)(草案)的验证协议为起点,我们识别了其中的方法学缺陷,并提出了两项扩展。首先,我们引入了一种过程追踪技术,以获取用户错误操作的度量,作为潜在危害的更敏感表征。该技术还可“向下游”用于识别残留的可用性问题。其次,我们在研究设计中增加了纵向维度,以追踪用户在三次会话中的性能进展,从而对所需培训和可学习性进行更深入的分析和比较。
在下一节中,我们将讨论验证测试协议的实施。我们将探讨美国食品药品监督管理局 [7], 的要求,并讨论其可行性和实施。此外,我们将根据案例研究反思对协议所做的扩展。
4.1 初始培训和测试环境
美国食品药品监督管理局[7]对验证测试的一项要求是,参与者培训应与实际条件下的培训相匹配。本研究中的初始培训基于最坏情况场景,即许多用户将仅接受最少的正式培训,随后进行在岗培训。这意味着,例如,用户在测试会话期间很少有机会审阅操作说明,如[15]中的情况。因此,本研究使用了一个简单的操作视频,涵盖所测试设备的最基本功能。这样,该培训并未等同于由专业人士制定的深入的实际用户培训。
FDA指南的另一项建议是,为了模拟遗忘,应在训练与测试之间设置延迟。由于物流原因,本研究中无法实现这一点。因此,结果可能存在正向偏差。另一个局限性是,测试是在安静环境中进行的,没有实际环境中常见的中断、干扰和时间压力。这使得数据收集更加容易,但可能引入了偏差。
4.2 作为易错性度量的规范路径偏差
根据FDA指南,需要考虑那些虽未导致错误的任务结果,但揭示了使用过程中可能带来有害后果的问题情况[7]。尽管大多数实验研究通过时间和错误的量化来评估用户表现 (例如[4]),我们的研究则比单纯的任务结果更细致地关注了错误操作。我们的研究结果强调了在传统结果测量之外增加过程度量的重要性:虽然不同设计在错误任务结果发生率上差异较小(介于2.5%至7%之间),但路径偏差的差异却几乎相差一个数量级。因此,我们建议将这一技术作为任务结果的更敏感替代方法,并建议将其称为易错性。
然而,我们承认,从自然主义决策的角度来看,定义最优路径本身就存在固有的局限性[38]。当前的方法并未考虑任何情境因素,因此忽略了人们可能需要调整自身行为以适应其他环境约束(例如中断)的情况。因此,我们对“最优路径”的定义完全基于界面设计所提供的功能。然而,就当前方法的目的而言,这种方法似乎是进行可用性验证最可行且最有用的途径。
4.3 混合研究中的规范路径偏差
诸如完成时间、心理负荷和任务完成率等纯粹的定量性能指标可以轻松获取,并可用于在特定场景下对整个系统进行基准测试(或验证)。然而,如果性能不足,这些指标很难揭示潜在的设计问题。另一方面,纯粹的观察性研究,特别是形成性可用性测试,在识别设计问题(包括认知层面的问题)方面非常有效。然而,多项研究表明,观察编码过程的可靠性极低,专家之间常常存在巨大分歧[26,39,40]。
过程追踪技术旨在弥合可用性研究中定量与定性方法之间的差距:在其最初的形式中,收集到的交互序列反映了用户与设备交互的各种模式(定性)。同时,这些序列的形式化表示使得后续可以进行定量数据分析。规范路径偏差只是量化的一种方式。事实上,莱文斯坦距离允许进一步分解为插入、替换和遗漏,从而得出更为细致的结论。此外,可以分析更高级别的模式。例如,撤销和擦除事件已被证明是可用性问题的良好指标 [41]。
此外,路径偏差的分析可以促进并指导后续的定性分析,例如任务层面随机效应分析表明,新设备在某些任务中的性能可能会受到影响。我们进一步识别出具体的规范路径偏差,并通过结构化事件报告 [25] 进行记录。随后,统计了其发生频率,作为衡量事件总体发生倾向性的指标。
总之,我们的分析方法为两种输液设备的交互提供了可行的结果。GOMS模型对两种界面的交互提供了总体表征,从而实现了两种设备之间定性和定量的直接比较。
4.4 用户多样性与样本量
美国食品药品监督管理局指南要求测试用户应代表预期的最终用户群体。这确保了研究结果可推广至不同背景的用户,例如不同的医疗保健环境。在本研究中,通过纳入来自重症监护和普通护理单位的用户来满足这一要求。
尽管FDA指南借鉴了可推广性,但通过所提出的研究设计,人们可以进一步采取差异化视角[42], ,审视用户之间的差异。例如,可以预期ICU使用者更习惯于进行推注,因为其护理部门的特点是需要突然干预和快速决策{2}。因此,新界面的推注功能可能比 GCU使用者更能支持ICU使用者,因为它支持直接推注给药。虽然我们出于简洁考虑未进行此类分析,但参考回归模型可轻松调整以回答此类问题。在所示案例中,需为专业组添加一个固定效应以及相应的任务层级斜率随机效应。该过程类似于设备与任务交互的斜率随机效应分析(图6)。实际上,该回归框架使得常用于参与者子组的单独分析技术变得多余。
此外,所提出的研究设计尽可能采用了被试内因素,从而能够评估用户(或任务)样本内部的同质性程度。在案例研究中,参与者样本在整体表现、训练和对两种设计的反应。仅在心理工作负荷测量中观察到个体间差异,但我们倾向于将这种显著差异解释为方法学假象。
通常,当个体差异较为显著时,被试内设计也更为高效。由于本研究具有较强的同质性,将测试设备作为被试间因素可能会得到类似的结果。然而,这种同质性并非普遍情况,若采用被试间设计,则需要招募两倍的样本量才能获得相同数量的观测值。
说到样本量,增加观测值的数量通常会提高估计的确定性(更小的可信区间)。在当前的被试内设计中,观测值的数量由邀请参与测试的参与者数量、测试任务的数量以及重复次数共同决定。增加其中任何一项都会提高确定性,但程度不同:增加参与者样本量将提高所有固定效应的确定性。如果主要希望获得更精确的随机效应(例如个体用户的绩效水平),则增加每位用户的观测值数量是有效的,并且在一定程度上也能改善对固定效应的估计。此外,确定性的程度取决于具体情况(随机性大小),而所需的确定性程度则取决于研究问题。本研究中25名参与者的样本量已足以以合理的确定性得出两种设备之间的总体差异。若研究旨在检测学习速度方面的细微差异(如通过交互效应 所反映的),则需要更多的观测值,可以是更多参与者,或更优地,每位参与者更多的观测值。在这方面,贝叶斯推断框架提供了增量抽样的可能性(而在经典频率统计学[44]中这将是一个严重的统计错误)。当尚未达到目标确定性时,可以继续邀请更多参与者。
4.5 解读纵向的可用性度量
提出并演示了一种作为FDA验证测试协议扩展的纵向测量方法。尽管用户行为和性能随时间变化是普遍现象[45], ,但目前大多数可用性研究都是基于单次用户-设备交互得出结论[18]。
纵向设计揭示了一些细微但仍然相关的模式,而这些模式在被试间设计中是无法获得的:首先,规范路径偏差似乎在第一次会话后(新设计)达到最佳性能平台期。由于无错误操作是一种在高风险情境下,这是一个关键的性能指标,这一结果令人印象深刻地展示了新设计的优势。其次,尽管完成时间有望通过训练进一步改善,但人们可以确定两种设备最有可能达到的最佳性能,其中新设计明显领先(图7)。总体而言,结果明确证明了新设计在最佳性能和训练效果方面的优势。
此外,完整的被试内设计能够直接研究个体差异。在案例研究中,随机效应分析证实了参与者在整体表现、新设计的优势以及训练进展方面具有高度一致性。仅在心理工作负荷测量上观察到个体差异。我们倾向于将其解释为一种方法学假象,这使得RSME评分的绝对解释受到质疑。但这并不一定影响个体内一致性,这也是更倾向于采用完整被试内设计的另一个原因。在不同情况下,个体差异可能是真实的,例如训练有效性方面的年龄相关差异[46]。
在高风险情境中,预期最低性能水平可能比平均性能更适合作为指标。伊根将降低极低绩效水平出现概率的设计称为稳健设计[47]。随机效应分析是一种评估个体间差异的合适方法,可用于评估设计的稳健性[28]。即使没有需要从理论上推导出的预测因子来解释这种差异,这也是可行的,因为个体轨迹本身就说明了问题。
然而,参考模型仍存在一些局限性或可能的扩展:首先,出于简洁性的考虑,所有结果仅基于成功完成的任务。采用该验证方案的研究人员在处理任务完成时有三种选择:第一,可将其作为结果变量,结合参考回归模型使用逻辑斯蒂回归进行分析;第二,将成功试验和错误试验简单合并9 , ,但这意味着成功与错误尝试背后的行为过程是相同的;作为一种替代方法,可将任务完成设为控制变量,将其作为预测变量加入模型,并分别引入交互效应和随机效应。
更普遍地说,参考模型非常便于扩展:交叉分类随机效应结构允许在参与者、任务和设计层面上添加预测变量。
总体而言,我们发现第三次会话中布劳恩设备的错误任务结果速率为26.5%,新设计为19.5%,这些速率高得令人难以接受。显然,这两种设备都需要比三次会话加八个任务更多的正式或监督下的在职训练。
最后但同样重要的是,参考模型可以轻松修改以评估或比较培训方法的有效性。为此,在单一设计中,可以将设计参数替换为 ,例如用不同的水平来表示。此后,交互效应 将表示正式培训所带来的改进差异。
如案例研究中所述,三次会话系列是能够粗略呈现训练过程非线性的最小会话数量。如果研究目标需要更高分辨率的训练效果呈现,则可以增加更多的会话。然而,当前模型使用因子来表示会话,这种方法在重复次数较多时无法良好扩展。参数数量的成比例增加可能导致模型过饱和,从而使解释更加困难。对于较长的训练序列,一种替代方法是非线性混合效应回归,例如采用学习的指数定律[48]。该方法适用于培训方法之间的比较,以及新型设计与传统设备之间的比较[49]10
5 结论
医疗保健环境是复杂的社会技术系统,其特点是人类与技术之间的共同代理关系。作为认知人工制品,医疗器械应在操作流程中支持医疗从业者,以最大限度地提高医疗质量。研究医疗器械的可用性对于患者安全至关重要。在本研究中,我们扩展了美国食品药品监督管理局近期关于医疗器械可用性验证测试的建议。该扩展协议的核心内容包括完整的被试内设计、多个性能指标、用于追踪训练过程的重复会话,以及使用广义线性混合效应模型进行统计推断。
本研究实施了扩展协议,展示了如何捕捉随练习而演变的性能,体现用户和任务多样性,并处理多种性能指标。我们展示(并解释)了该方法如何被使用并进一步扩展,以涵盖多种研究问题,并基于定量陈述以及对不确定性的推理来促进理性决策。目前,医疗器械的人机工程设计正处于过渡阶段。许多出版物已认识到人因工程的重要性,并且国家和国际指南也对此进行了强化,但人因工程原则在工业开发流程中的普及以及受训人员的配备仍处于初级阶段。所提出的方法超越了现行法规,需要大量的资源和专业知识。然而,鉴于近年来的快速发展以及所涉及的高风险性,我们对精细化人因工程研究在设备开发过程中占据独立地位的潜力持乐观态度。如果挽救患者生命至关重要,那么当前的势头就不应因短视的经济阻力(如削减开发成本或缩短上市周期)而丧失。
6 作者贡献详情
马丁·施梅托:研究设计、方法开发、统计分析和撰写最终版本
拉斐拉·施尼特克:方法开发、参与者招募、数据收集、定性数据分析以及撰写初稿
扬·马尔滕·斯赫拉根:提出构想、研究设计、参与者招募
7 资金支持
本工作由经济、农业和创新部的三角洲计划以及乌得勒支市和乌得勒支省资助(项目编号:PID 101060)。
8 致谢
感谢芬妮·弗霍文和阿尼塔·克雷默斯作为参与研究人员,协助明确了用户需求。科尔·卡尔克曼担任科学顾问,并对提案进行了审阅。阿尼塔·阿茨设计了新界面。贝尔特·比尔曼实现了两个界面。弗劳克·范贝克和扬·索默在数据收集方面发挥了关键作用。鲁特格尔·范梅尔克负责项目管理。
12 利益冲突
无。
1409

被折叠的 条评论
为什么被折叠?



