虚拟现实或机器人技术在物理治疗干预中的摘要歪曲:两项元研究综述的方案
摘要
背景:机器人技术与虚拟现实(VR)等新兴技术正在被试验并应用于物理治疗实践中。随着新兴技术争夺市场份额,针对这些技术的试验存在歪曲结果的风险。为了使消费者能够就是否使用某项新技术做出知情决策,相关试验应准确地呈现研究结果。如果存在歪曲,则试验结局可能无法与临床实施干预措施时所报告的结果相比较。
目的:确定使用机器人或虚拟现实干预措施的物理治疗临床试验摘要中歪曲的程度和类型。次要目的是通过使用现有7项检查表及更新后的项目定义,确定评分员(包括有经验与无经验者)之间的一致性。
方法:我们将对PEDro数据库中收录的任意年份的100项机器人技术试验(研究1)和100项虚拟现实试验(研究2)进行两项元研究综述。使用更新后的偏倚检查清单,结合全文对每项试验的摘要进行评估。将报告每项内容的总偏差评分以及存在歪曲的研究所占比例。采用科恩κ统计量确定有经验与无经验的评估者之间的一致性。同时收集评分员对各项评分的信心情况。
讨论:我们将确定机器人技术和虚拟现实文献中是否存在歪曲,并评估评分员是否能够自信且一致地使用偏倚检查清单。我们希望这项研究将促进研究结果的最佳实践报告,从而使新兴技术的实施对临床结局具有现实的期望。
关键词 :歪曲;技术;临床试验;机器人技术;虚拟现实
背景
机器人技术和虚拟现实(VR)干预措施是正在试验并逐步应用于临床实践的新兴技术,作为康复的新方法[1]。2017年,全球在康复机器人技术上的支出约为6.5亿美元,预计到2027[2]将增长至31亿美元。同样,2018年全球在康复虚拟现实方面的支出约为7.7亿美元,预计到2023[3]将增加至50亿美元。当技术被开发并准备投入临床实践时,会面临市场份额和消费者资金的竞争。为了证明购买新技术的合理性,需要提供干预措施的临床有效性证据,以及潜在风险或不良反应、可用性,并评估其益处是否超过相关成本[1]。
鉴于展示新干预措施有效性的激励,作者可能面临风险以更积极的方式报告试验结果,或以误导性或不诚实的方式进行报告,尽管并非完全虚假。这种报告方式被称为“歪曲”。歪曲可定义为:“特定的报告方式未能真实反映研究结果的性质和范围,可能影响读者对结果的印象,是一种扭曲科学报道但并未实际撒谎的方式”[4, 5]。歪曲现象已在肿瘤学[6]、下背痛[7]、生物医学科学[8]、疲劳[9]、非侵入性脑刺激[10]、生理学[11]、药理学[11]和神经生理学[12]领域的特定期刊中被发现。
歪曲的主要后果是试验结论会夸大干预效果。摘要歪曲尤其重要,因为摘要是临床试验的入口,广泛在线可获取,且摘要中的信息通常决定是否阅读或购买全文[13]。缺乏时间且无法获取全文的临床医生可能更容易受到影响,倾向于仅阅读摘要,而不对完整的临床试验进行批判性评估。如果不仔细审查全文,而依赖摘要来传达整体结论,可能会导致干预措施在对临床有效性抱有错误期望的情况下被实施。鉴于此,确保摘要准确反映临床试验至关重要。
为了评估摘要歪曲,Boutron等人[14]开发了一份全面的检查表,用于调查具有无显著性结果的随机对照试验(RCT)样本中摘要和全文中的歪曲情况。在该研究中,评估了72篇摘要,其中68.1%包含歪曲。在后续的一项研究中,30篇具有无显著性研究结果且存在歪曲的摘要,根据一组指南[6]被改写为无歪曲的摘要。另一篇论文的作者将这些指南转化为一份7项‘歪曲检查表’,并将其应用于研究下背痛物理治疗干预措施的临床试验的摘要,无论其研究结果是否具有显著性[7]。下背痛文献的研究结果表明,98%的摘要至少包含一项歪曲,平均每个摘要包含4.9项摘要歪曲[7]。
检查表可作为调查偏倚并指导读者评估文献的有用工具。例如,检查表常用于评估随机试验的偏倚风险(Cochrane工具[15])以及医疗保健领域随机和非随机试验系统综述研究的质量(AMSTAR‐2[16])。然而,为了使读者能够有效使用批判性评估检查表,检查表项目的解释必须清晰明确。评分员使用检查表时的一致性至关重要,因为它反映了检查表有效性的一部分。在先前的研究中,使用7项偏倚检查清单时,评分员间的项目间一致性存在差异[7]。尽管有两项具强一致性(0.80–0.90),但三项具弱一致性(0.40–0.59),表明使用者在这些项目上对摘要的评估存在不一致[7, 17]。提高评分一致性的方法之一是确保检查表每一项均有全面描述,以避免歧义。
因此,本研究的目的如下:(1)调查PEDro数据库中收录的机器人技术(研究1)和虚拟现实(研究2)试验中歪曲现象的数量和频率;(2)更新7项歪曲检查清单的条目描述,并评估非专业评分员和有经验的评分者在各项条目上的用户一致性。
方法
研究概述
这是一项包含两项研究的元研究设计,将评估索引中使用机器人(研究1)或虚拟现实(研究2)干预措施的物理治疗试验PEDro数据库。PEDro收录了当前(或未来可能)用于物理治疗干预的临床试验,研究对象为可能由物理治疗师提供该干预措施的人群,每个试验均使用10分制的PEDro量表对方法学质量进行评分[18, 19]。
检索策略
咨询了图书馆员以制定检索词。在PEDro的高级搜索功能中,我们将对以下每个术语与“临床试验”进行“标题和摘要”搜索,并合并结果。
研究1 搜索机器人试验 :“robot”、“Exoskel”、“Electromechanic”、“Electromechanic”、“automat”、“orthotic”、“orthos”、“driven”、“computeraided”和“computerassist”
研究2 检索虚拟现实试验 :“虚拟”、“VR”、“游戏”、“计算机辅助”、“计算机生成”、“计算机环境”、“触觉”和“模拟”。
选择标准
我们检索到的所有试验将被导入Covidence进行筛选。我们将纳入符合以下条件的研究:(1)(准)随机临床试验,(2)包含任何年龄的参与者,(3)分别比较机器人或虚拟现实干预与非机器人或非虚拟现实干预(见下文定义)。当干预措施作为附加干预实施时,相关研究也将被纳入。
我们将排除交叉试验、比较多种机器人或虚拟现实干预的试验以及具有> 2个组的试验。此外,出于可行性考虑,我们将排除非英文研究、仅进行二次分析或经济成本分析的研究、无法获取全文的研究,以及未使用PEDro量表在PEDro数据库中进行评级的研究。
机器人技术和虚拟现实的定义
机器人干预将被定义为“一种能够自动执行一系列复杂操作的机器”[20],其可在训练期间为肢体提供辅助或阻力,并能同时移动多个节段,以协助/代替患者完成动作,而患者也在尝试完成该动作[21]。机器人设备的例子包括MIT‐ManusVR[22]和LokomatVR[23](参见Pignolo等人[24]以及Chaparro‐Cardenas等人[25]获取更多示例)。非机器人设备的例子包括倾斜台(如ErigoVR[26])或持续被动运动设备,且患者不主动尝试移动肢体。
虚拟现实(VR)可以定义为“利用计算机硬件和软件创建的交互式模拟,向用户提供参与看似并感觉类似于真实世界物体和事件环境的机会”[27]。就本研究而言,虚拟现实干预包含一种物理沉浸元素,即通过安装在头戴显示器或肢体上的传感器,实现VR用户与其虚拟化身之间的动作同步。根据此定义,虚拟现实包括使用如Oculus Rift[28]和HTC Vive[29]等设备进行的康复。该定义还包括诸如Microsoft KinectVR和Nintendo WiiVR等系统,其中虚拟环境显示在计算机屏幕上,且虚拟化身的动作与由传感器记录的使用者动作相匹配。此外,我们的虚拟现实定义还包括跑步机行走和固定式健身车骑行,同时通过显示器呈现患者穿越风景的画面,画面会根据患者的用力程度/速度进行调整。我们的虚拟现实定义不包括用户通过操纵杆或键盘在虚拟世界中操控人物的游戏。使用增强现实和混合现实技术的研究也将被排除在外,因为这些技术与虚拟现实明显不同[30]。
研究筛选
标题和摘要将由两名研究人员独立筛选。接下来,两名独立的研究人员将阅读全文,以确定试验是否符合入选标准。如果全文中信息不足,无法确定试验是否使用了虚拟现实或机器人技术,则该试验将被排除。在全文筛选过程中,如有需要,将咨询第三名研究人员以达成共识。
从纳入的研究中,将使用MATLAB(2017b)中的随机数函数随机选取100项机器人研究和100项虚拟现实研究。如果可用的机器人或虚拟现实干预研究少于100项,则纳入全部数量的研究。
摘要偏倚评估
摘要中的信息歪曲将使用7项偏倚检查清单进行评估[6, 7],并与全文进行对照。我们已更新了这7项的项目定义和评分标准,以减少评分中的歧义。
各项将被分类为‘是’(存在歪曲),‘否’(不存在歪曲)或‘不相关’。在分析中,‘不相关’将被编码为‘否’。表1展示了更新后的项目描述的偏倚检查清单。
将使用5项未纳入研究的试验样本对歪曲检查清单进行预试验,并根据需要对条目描述和评分标准进行最终修改。
评分员由来自悉尼科技大学(UTS)物理治疗硕士课程的10名学生(缺乏经验的评分者)以及最多四名有经验的评分者组成。五名学生将对研究1(使用机器人干预)的试验进行评分,另外五名学生将对研究2(使用虚拟现实干预)的试验进行评分。对于每项试验,将随机配对两名学生,并使用偏倚检查清单(表1)独立对该试验进行评分。因此,每名学生总共将对40项临床试验进行评分。使用学生作为本研究评分员的许可已获得UTS伦理委员会(ETH20‐4849)的批准。除了学生评分外,还将配对两名有经验的研究人员,各自独立对每篇摘要进行评分。如果出现分歧,将通过讨论达成共识解决。对于有经验与无经验的评分者,原始评分将用于偏倚检查清单的一致性分析,而有经验研究人员之间达成共识的评分为每个检查表项目的最终得分。有经验和缺乏经验的评分者还将使用5点李克特量表对自己的评分信心进行评价,评价语句为“我确信自己正确地评定了该项目”,回答选项包括:“强烈不同意”、“不同意”、“中立”、“同意”或“强烈同意”。
数据提取
将为每项试验提取以下变量:PEDro评分(0–10)、作者数量、发表年份、患者人群类型(即神经病学、骨科、肌肉骨骼、心胸外科、烧伤等)、试验地理区域、摘要长度、随机患者总数、主要结局指标数量、次要结局指标数量、资助类型(非行业资助/行业资助/无资助)、利益冲突声明(未报告、不存在、存在并已报告)、期刊摘要字数限制、期刊影响因子以及试验注册信息。数据将由每位评估者使用Qualtrics上的定制数据提取表独立提取。数据提取中的分歧将进行讨论,直至达成共识。所提取的数据仅限于已发表的摘要和全文中可获取的信息。不会联系作者以获取附加信息。
分析
对于评分员间的一致性,我们将使用Fleiss’ kappa。一致性将在无经验的评分员之间、有经验的评分者之间以及两者之间进行评估。有经验的评分员与缺乏经验的评分者。Fleiss’ kappa值的解释将分为:轻微一致(0–0.20)、最低限度(0.21–0.39)、弱(0.40–0.59)、中等(0.60–0.79)、强(0.80–0.90)或几乎完美(>0.90)的一致性[17]。每个检查表项目的评分难易程度将分别针对缺乏经验及有经验的评分员,以均值和标准差进行报告。
每项试验的总偏差评分(满分7分)将被计算,并报告机器人技术(研究1)和虚拟现实(研究2)试验的整体偏差评分均值和标准差。还将报告在偏倚检查清单各项目中回答“是”的试验百分比,以及按总偏差评分划分的试验百分比。
与提取的变量相关的歪曲数量(0–7)将汇总为频数、均值和标准差。将进行探索性统计分析,评估歪曲数量(因变量)与提取的变量分组(即试验注册(是或否))之间的关系。分析将采用参数检验(如非配对t检验或单因素方差分析)、非参数比较(如曼‐惠特尼U检验或克鲁斯卡尔‐沃利斯检验)或回归分析进行。
讨论
用于康复的新兴技术,例如机器人技术和虚拟现实,目前正在被试验并被实施到临床实践中[1],这些技术的开发和应用涉及大量资金[2, 3]。鉴于新技术开发背后的经济激励,报告研究结果和总体结论的研究摘要可能容易出现歪曲。我们的结果将用于告知读者在此类文献中发现的歪曲类型。提供有关文献中歪曲的信息可以提醒读者在仅阅读摘要时更加谨慎,并提醒研究人员忠实呈现其研究结果的重要性。
本方案中的两项研究将采用随机抽取的摘要样本,检验更新后的偏倚检查清单,该清单现包含更详细的条目描述。我们假设,报道新技术的摘要可能存在较多的歪曲现象,因此可作为测试更新版偏倚检查清单的便利样本。我们期望,此版本的偏倚检查清单通过增加条目描述,能够提高其可用性并增强用户一致性。有经验与无经验的评分者将试用该更新版偏倚检查清单,以确保非专家也能够理解并使用该清单对摘要进行评估。
通过本研究,我们希望制定出一个改进的偏倚检查清单,使其可供有经验与无经验的文献使用者使用,并为未来版本的检查表提出改进建议,以便全面识别文献中的歪曲问题。
表1。基于原始指南/检查表更新的项目定义的摘要歪曲检查表[6, 7]。加粗文本为纳西门托等人所使用的类别。
| 偏倚检查清单(摘要中的歪曲与全文一致) | 评分标准 |
|---|---|
| 1. 主要结局的遗漏 |
如果 1主要结局的结果被省略,则编码为“是”
如果提到了所有主要结局的结果,则编码为“否” |
| 2. 未能报告无统计学意义的主要结局 |
如果 1无统计学意义的主要结局的结果被遗漏,则编码为‘是’
如果所有显著和无统计学意义的主要结局均已被包含,则编码为‘否’ 如果阴性主要结局的结果被遗漏,但所有无统计学意义的项目均已报告,则此项编码为‘否’。 如果没有无统计学意义的主要结局,则编码为‘不相关’。 |
| 3. 对主要结局的选择性报告阳性结果并遗漏阴性结果 |
如果 1阴性主要结局的结果被省略,且存在 1阳性主要结局,则编码为“是”
如果 1阴性主要结局的结果被遗漏且没有阳性主要结局,则编码为“否” 如果所有阴性主要结局的结果都已被纳入,则编码为“否” 如果没有阴性主要结局,则编码为‘不相关’。 |
| 4. 关注除主要结局外具有统计学意义的结局 |
如果报告了有统计学意义的次要结局,而未报告主要结局(无论结果是阳性、阴性或无差异),则该项目编码为“是”。
如果未报告主要结局,且包含具有统计学意义的亚组分析,或在无先验依据的情况下对组别进行了修改声明(即对反应者和无反应者进行分组),此项编码为“是”。 如果所有主要结局均有报告,则此项编码为“否”。 如果没有定义主要结局,则所有结局均被视为主要结局,此项编码为“不相关” |
| 5. 未提及干预措施的不良事件 |
如果摘要未报告不良事件(无论是否发生),此项编码为‘是’
如果全文结果中提到了轻微或严重的不良事件,而摘要报告‘无不良事件’,此项为编码‘是’。 如果全文结果中未提及不良事件,且摘要也未提及不良事件,此项编码为‘是’。 如果全文报告无不良事件,而摘要未报告‘无不良事件’,此项编码为‘是’。 如果摘要报告‘发生不良事件’或‘未发生不良事件’,且与全文内容一致,此项为编码为“否”。 |
| 6. 对统计学上不显著的主要结局结果进行过度热情的解释,将其视为有效 |
仅基于组内(干预前 vs 干预后)具有统计学显著性差异来解释干预的益处或有效性而不是组间差异,这将被编码为“是”。
将无统计学意义的数据解释为具有统计学意义的阳性结果,包括但不限于以下表述“趋向”或“接近显著性”将被编码为“是”。 如果对无统计学意义的主要结局进行了恰当解释,则此项将被编码为“否”。 如果没有无统计学意义的主要结局,此项将被编码为“不相关”。 参见非劣效性或等效性试验的附加说明。 |
| 7. 在主要结局上无临床重要效应的治疗推荐 |
如果95%置信区间包含最小临床有意义效应(SCWE),则编码为“是”。
由于“安全性”和“耐受性”而推荐一种治疗,而不是由于主要结局中的最小临床有意义效应(除非安全性/耐受性是)明确指出为主要结局并先验地进行比较/评估),则编码为‘是’。 如果临床重要性或有意义性在先验地定义,并且试验结果支持具有临床重要性的变化,则此项将被评分‘否’。 如果临床重要性或有意义性未在先验地定义,则将从文献中提取最小临床有意义效应。如果试验结果支持由文献定义的临床重要性变化,则此项将被评分‘否’ 如果摘要中未报告临床重要性,则编码为‘不相关’。 有关非劣效性或等效性试验,请参见附加说明。 |
附加说明
在未定义主要结局的情况下,所有结局均被视为主要结局。
除非在研究目的或方法中明确说明为非劣效性或等效性(或同义词),否则试验将被认定为优效性试验。在此类情况下,只要对照组被纳入解释,并且对照组是临床上有效的,统计学上不显著的结果也可能导致推荐该治疗。解释时需包含对照组,且对照组应为临床上有效。
将通过检索相关结局和/或目标人群的文献来确定SCWEs。在无法找到SCWE的情况下,未先验地定义,且试验推荐该治疗,则将该试验编码为“是”。

被折叠的 条评论
为什么被折叠?



