29、机器人干预试验：可行性、结果与启示-优快云博客

本文链接：https://blog.youkuaiyun.com/fire9/article/details/152653071

机器人干预试验：可行性、结果与启示

1. 研究伦理与数据管理

在研究过程中，研究团队高度重视参与者的权益和福祉，采取了一系列措施来避免对参与者造成伤害。

避免污名化 ：研究团队认识到他人的负面标签（社会污名）或参与者自身的负面认知（自我污名）可能会对参与者造成潜在伤害。因此，研究团队以尊严、尊重和敏感的态度对待参与者，并与他们进行互动。研究人员和技术人员也接受了相关培训，以确保他们不会对参与者进行污名化。在研究结果传播过程中，对研究结果进行匿名处理，保护参与者的身份，并以尊重和无污名化的方式提及相关人群。
制定管理协议 ：研究团队制定了管理参与者痛苦、偶然发现（即在试验期间可能出现但与试验特定目标无关的观察或发现）和可报告事件（即被评估为很可能对参与者或他人构成重大风险的不良事件或事故）的协议。如果认为有必要，会对协议修改进行讨论、记录、论证，并与研究伦理委员会进行沟通。
保护匿名和保密 ：在整个项目和试验过程中，研究团队承诺在所有程序（包括筛选、招募、测试、评估和传播程序）中维护参与者的匿名性和保密性。数据收集、使用和存储程序符合国家法律和欧盟的《通用数据保护条例》（GDPR），包括保障参与者的访问权、知情权、撤回权和数据删除权。数据收集遵循数据最小化原则，即从研究参与者那里收集的个人信息仅限于完成测试和评估工作包特定目标所需的直接相关和必要信息。不存储与第三方相关的数据，例如在测试期间进入卧室的访客或工作人员的任何音频、视频或感官数据。项目完成后，所有筛选数据都会被删除。在测试程序结束后，机器人为正常运行而收集和处理的所有视觉、听觉和感官数据也会被销毁，但机器人记录的与每个参与者的互动次数除外，这些互动是匿名的。研究数据通过加密安全的谷歌云端硬盘项目账户在线输入、存储和管理，只有项目团队成员可以访问。

2. 试验可行性

试验招募工作于2019年2月至11月期间在英国的八个地点和日本的一个地点进行。最初计划每个文化群体招募15名参与者，总共招募45名参与者，但在试验的前两个月，发现招募目标样本量比预期更困难。为了应对这一问题，试验期延长了两个月，使英国研究人员能够接触更多的地点并重新访问其他地点，最终成功为每个文化群体招募到了15名参与者。在日本，试验于2019年7月开始，且仅在一家养老院进行，这限制了招募足够数量参与者的机会。尽管努力寻找该养老院附近可驾车到达的其他养老院，但在这个以农村为主的地区没有找到合适的地方。

原因	养老院1	养老院2	养老院3	养老院4	养老院6	养老院7	养老院8	日本养老院	原因总数
太累/年龄太大	3	2	1	1	3	3	1	0	14
无明确原因	0	2	2	3	0	2	2	0	11
对项目不感兴趣	0	0	0	0	0	5	0	0	5
反对机器人理念，更喜欢人际互动	1	1	0	1	0	0	0	0	3
时间不足/忙于其他优先活动	0	2	0	1	0	0	0	0	3
家人拒绝同意	0	0	0	0	0	0	0	3	3
对尝试新事物不感兴趣	0	2	0	0	0	0	0	0	2
感到过于沮丧	0	0	0	2	0	0	0	0	2
感到过于焦虑/压力过大	0	0	0	0	2	0	0	0	2
丧亲之痛	0	0	0	0	1	0	0	0	1
反对文化能力理念	0	0	1	0	0	0	0	0	1
被信息和同意书的长度吓退	0	0	0	0	1	0	0	0	1
觉得英语不够好	0	0	0	1	0	0	0	0	1
更喜欢以小组形式进行测试，而非单独进行	0	0	0	1	0	0	0	0	1
担心机器人的安全性	0	0	0	0	0	1	0	0	1

从养老院居民拒绝参与的原因来看，最常见的是太累/年龄太大，其次是无明确原因拒绝和对项目不感兴趣。许多接受护理的老年人较为脆弱，对尝试新奇未知的事物感到不确定和焦虑。在总共提名的134名老年人中，只有不到四分之一（33名参与者）成功完成了试验。筛选和招募过程复杂，包括多个阶段，导致大多数被提名的居民要么被排除在外，要么拒绝或退出研究。111名老年人通过了初步筛选，但在招募过程中，又有12人因对认知功能、痴呆程度以及同意参与的能力存在担忧而被排除。被邀请参与研究时，超过一半（51人）的老年人拒绝参与。在给予同意的45名参与者中，又有10人在开始试验前或经过一次或多次试验后退出。最终，英国的英语和印度群体达到了每个文化群体15名参与者的目标，但日本群体仅招募到3名参与者，主要原因是日本试验开始较晚且仅在一家养老院进行招募。

3. 试验设计对参与者的影响

试验设计在实施过程中对参与者产生了多方面的影响。

观察带来的影响 ：参与者在试验期间会被视频和音频记录，至少有两名研究人员会坐在参与者卧室外面监控设备和试验过程，并在需要时为机器人提供协助。这使得参与者意识到自己在试验期间被观察，这种情况对不同参与者的影响程度不同。例如，参与者R9表示自己会谨慎透露信息，并且会区分哪些活动对于研究观察更有价值，哪些是自己休闲时会做的事情。他认为长时间观看电影或播放音乐对研究没有太大价值，觉得这样做是浪费时间。
试验时长的影响 ：试验会话安排为3小时，但参与者可以随时休息或结束会话，并且会经常得到提醒。由于参与者大多是老年人，容易疲劳，有时会因健康问题出现疼痛和不适，症状可能会在不同会话之间波动。试验结束后的访谈中，有参与者提到会话时间太长，希望能更短一些。同时，也有参与者认为如果使用机器人的时间超过两周的六次会话，他们可能会从体验中获得更多收获，比如参与者R11表示“时间不足以让我触及所有话题”，参与者R9表示“使用时间太短，到最后和机器人交流可能会更容易，但时间不够”。

总体而言，试验设计具有可行性和可接受性，但在参与者招募方面需要比预期更多的时间，涉及的养老院数量也比预期更多，并且需要纳入比最初预期更广泛的老年人居住场所。英国采取的额外措施使得英语和印度群体成功招募到了计划数量的参与者，但日本由于试验开始较晚且养老院数量有限，招募的参与者数量远低于目标。对于被邀请的老年人来说，尝试新事物的担忧是招募的主要障碍，低情绪和孤立感使许多人拒绝参与。定性访谈表明，一些参与者在与机器人互动时会因被观察而产生一定程度的自我意识，部分参与者还表示感到疲劳，认为会话时间太长，且整个试验周期太短，无法充分体验机器人的功能。

以下是试验可行性相关流程的mermaid流程图：

graph LR
    A[开始试验招募] --> B{招募目标样本量是否困难}
    B -- 是 --> C[延长试验期]
    C --> D[接触更多地点并重新访问其他地点]
    D --> E{是否达到招募目标}
    E -- 是 --> F[完成招募]
    E -- 否 --> G[继续努力招募]
    B -- 否 --> F[完成招募]

4. 定量结果与解释

4.1 数据特征

最初有45名居民提供了参与试验的初始同意书，但在测试阶段开始前有10名居民退出，剩下35名居民开始测试。在测试的第一周，又有2名居民退出，最终共有33名参与者完全参与了试验并完成了所有测试程序。这些参与者的特征如下表所示：

分组	年龄（均值(标准差)）	年龄中位数	女性人数(百分比)	男性人数(百分比)	小学及以下人数(百分比)	中学/高中人数(百分比)	专业/大学人数(百分比)	寡妇人数(百分比)	非寡妇人数(百分比)	无宗教信仰人数(百分比)	轻度/中度宗教信仰人数(百分比)	非常/极度宗教信仰人数(百分比)
所有机器人组（N = 23）	80.65(9.48)	81	14(60.9%)	9(39.1%)	5(15.2%)	9(27.3%)	9(27.3%)	16(48.5%)	7(21.2%)	5(15.2%)	13(39.4%)	5(15.2%)
实验机器人组（N = 12）	79.50(9.03)	79	7(21.2%)	5(15.2%)	1(3.0%)	5(15.2%)	6(18.2%)	8(24.2%)	4(12.2%)	3(9.1%)	8(24.2%)	1(3.0%)
控制机器人组（N = 11）	81.91(10.23)	83	7(21.2%)	4(12.1%)	4(12.1%)	4(12.1%)	3(9.1%)	8(24.2%)	3(9.1%)	2(6.1%)	5(15.2%)	4(12.1%)
无机器人组（N = 10）	84.90(10.44)	84	8(24.2%)	2(6.1%)	6(18.2%)	3(9.1%)	1(3.0%)	7(21.2%)	3(9.1%)	2(6.1%)	3(9.1%)	5(15.2%)

4.2 身体和心理健康

通过SF - 36和ULS - 8工具分别对参与者的健康和幸福感进行了定量评估，前者测量了一系列不同的与健康相关的生活质量领域，后者测量了孤独感。

身体健康 ：在身体健康方面，与对照组2相比，实验组或控制组1（即使用机器人的参与者）的干预措施未能产生明显的改善。从整体汇总的身体健康得分来看，所有三个机器人组（“任何机器人”组、“实验机器人组”和“控制机器人组”）的身体健康状况都略有下降，而对照组2的整体身体健康状况保持稳定（61.69 - 62.56）。这一情况在SF - 36的各个身体健康子量表中都有所体现，包括“身体功能”（衡量人们在进行如洗澡或穿衣等身体活动时的受限程度）、“身体角色限制”（衡量人们因身体健康问题而无法进行日常活动的程度）、“疼痛”（衡量人们身体疼痛的程度）和“总体健康”（衡量个人对身体健康状况的感受，从差到优）。

分组	身体功能(T0均值(标准差))	身体功能(T2均值(标准差))	身体角色限制(T0均值(标准差))	身体角色限制(T2均值(标准差))	疼痛(T0均值(标准差))	疼痛(T2均值(标准差))	总体健康(T0均值(标准差))	总体健康(T2均值(标准差))
任何机器人组（N = 23）	34.32(27.06)	32.83(27.87)	63.32(41.13)	60.60(42.45)	69.57(23.94)	65.43(28.17)	65.22(19.57)	59.13(20.43)
实验组（N = 12）	32.45(28.46)	26.25(23.66)	58.85(43.00)	61.98(39.03)	67.08(25.56)	68.33(31.39)	70.42(13.22)	59.17(19.87)
控制组1（N = 11）	36.36(26.65)	40.00(31.38)	68.18(40.45)	59.09(47.79)	72.27(22.95)	62.27(25.31)	59.55(24.23)	59.09(22.00)
对照组2（N = 10）	46.00(30.62)	47.50(37.21)	57.50(47.21)	60.00(44.41)	71.25(35.46)	72.75(32.13)	72.00(22.63)	70.00(24.94)

心理健康 ：在心理健康方面，使用机器人的参与者有明显的改善。从“情绪幸福感”子量表来看，“任何机器人”组和实验组的得分都有较大的正向变化，而控制组1的得分没有变化，对照组2的得分大幅下降。其中，“任何机器人”组与对照组2得分改善的差异以及实验组与对照组2得分改善的差异在统计学上具有显著性。实验组与控制组1得分改善的差异也较大，但在统计学上不显著。这表明，与不使用任何机器人相比，使用CARESSES机器人（理想情况下是实验机器人）即使在短短两周内也可能改善老年人的心理健康和情绪幸福感。

将“情绪幸福感”、“能量和疲劳”、“情绪角色限制”和“社会功能”子量表组合成一个整体的“心理健康总分”来衡量心理健康时，实验组与对照组2、实验组与控制组1的差异略超出统计学显著性阈值。对照组2的“心理健康总分”在两周内从76.22（T0，即基线）显著降至63.30（T2，即干预后），而实验组的得分从77.59（T0）保持稳定至78.39（T2）。控制组1的得分虽未提高，但也没有像对照组2那样大幅下降。这些结果进一步证实，使用该系统两周可能有助于保护心理健康，实验机器人在这方面可能尤其有效。

实验机器人在“情绪角色限制”子量表上的得分在两周干预期内优于控制组1和对照组2。该量表衡量个体因情绪问题在进行日常活动时的受限程度。实验组的得分从平均86.11（T0）略有上升至90.28（T2），而控制组1的得分从87.88降至60.6（这一变化在统计学上具有显著性），对照组2的得分从73.33降至53.33。实验组与对照组2、实验组与控制组1之间的组间差异接近显著性。这表明使用具有文化适应性的机器人可能有助于预防心理健康问题，对日常生活活动产生积极影响。

在“能量和疲劳”（也称为“活力”量表）方面，实验机器人与对照组2相比表现较好，控制组1与对照组2相比也表现良好，且与实验机器人相当。两个机器人组的得分随时间略有增加（实验组：T0时M = 57.92，T2时M = 60；控制组1：从54.55到56.83），而对照组2的得分大幅下降（从62.50到56.00）。干预措施增加能量的原因可能与心理健康和情绪幸福感的改善有关，情绪改善反过来会提升能量（实际上，发现情绪幸福感与能量/疲劳之间存在显著相关性：rho = 0.499；sig = 0.003）。另一种解释是，使用该系统就像体育锻炼一样，虽然一开始可能会让人疲劳，但随着时间的推移会增强能量和耐力。

“社会功能”子量表衡量身体和情绪问题对正常社交活动的干扰程度。实验组和对照组2的参与者在该量表上的得分随时间都有显著下降（分别从83.33到73.96、从86.25到76.25），但控制组2参与者的得分略有上升（从77.27到79.55）。总体而言，与对照组2相比，“任何机器人”组的得分相对下降幅度较小，这表明使用机器人不太可能比不使用机器人对社会功能产生更大的不利影响，甚至可能有轻微的保护作用。不过，考虑到干预措施并非主要为改善个体的社交环境而设计，且该量表同时评估了情绪和身体健康对社交活动的影响，而身体健康并未得到改善，因此干预措施在该子量表上未产生更好的得分并不令人意外。

以下是不同机器人组与对照组在心理健康相关指标上的ANCOVA结果表格：
| 结果变量 | F值 | df | 显著性 | 部分 eta 平方 |
| — | — | — | — | — |
| SF36身体功能 | 0.512 | 1 | 0.480 | 0.017 |
| SF36身体角色限制 | 0.057 | 1 | 0.813 | 0.002 |
| SF36情绪角色限制 | 1.203 | 1 | 0.281 | 0.039 |
| SF36能量和疲劳 | 0.848 | 1 | 0.364 | 0.027 |
| SF36情绪幸福感 | 5.128 | 1 | 0.031 | 0.146 |
| SF36社会功能 | 0.024 | 1 | 0.878 | 0.001 |
| SF36疼痛 | 0.665 | 1 | 0.421 | 0.022 |
| SF36总体健康 | 0.928 | 1 | 0.343 | 0.030 |
| SF36健康变化 | 0.778 | 1 | 0.385 | 0.025 |
| SF36身体总分 | 0.903 | 1 | 0.349 | 0.029 |
| SF36心理总分 | 2.251 | 1 | 0.144 | 0.070 |
| ULS - 8总分 | 1.163 | 1 | 0.290 | 0.041 |
| NARS子量表1 | 6.304 | 1 | 0.018 | 0.174 |
| NARS子量表2 | 9.292 | 1 | 0.005 | 0.236 |
| NARS子量表3 | 3.815 | 1 | 0.060 | 0.113 |
| NARS总分T2 | 5.986 | 1 | 0.020 | 0.166 |

综上所述，本次机器人干预试验在可行性、参与者体验以及对身心健康的影响等方面都有丰富的发现。虽然在身体健康方面干预效果不明显，但在心理健康方面，使用机器人尤其是实验机器人显示出了积极的作用。未来的研究可以进一步优化试验设计，提高招募效率，延长使用时间，以更好地发挥机器人在改善老年人生活质量方面的潜力。同时，也需要更加关注参与者在试验过程中的体验和需求，减少因试验设计带来的负面影响。

5. 试验结果总结与建议

从整个试验结果来看，我们可以对试验进行全面总结，并提出一些针对性的建议，以优化未来类似的机器人干预试验。

5.1 试验结果总结

招募情况 ：参与者招募面临诸多挑战，需要更多时间、涉及更多养老院和更广泛的居住场所。尽管英国的英语和印度群体达到了招募目标，但日本群体因试验启动晚且招募地点有限，远未达到目标。拒绝参与的原因主要集中在年龄、兴趣缺乏和对新事物的担忧上。
试验设计影响 ：试验设计中观察和时长因素对参与者产生了一定影响。观察使部分参与者产生自我意识，影响其互动行为；而试验会话时长和整体周期的设置未能满足部分参与者的期望。
身心健康影响 ：在身体健康方面，机器人干预未带来明显改善；但在心理健康方面，使用机器人尤其是实验机器人，对老年人的情绪幸福感、心理健康总分、情绪角色限制和能量疲劳等方面有积极作用。

5.2 建议

招募优化
- 提前规划招募时间和地点，尤其是在不同地区开展试验时，要充分考虑当地的实际情况，如养老院分布、人口密度等。
- 加强宣传和沟通，向潜在参与者详细介绍试验的目的、过程和益处，减少他们对新事物的担忧和不确定性。可以通过举办宣传活动、发放宣传资料等方式进行。
- 与养老院等机构建立更紧密的合作关系，争取他们的支持和协助，提高招募效率。
试验设计改进
- 调整试验会话时长和整体周期，根据参与者的反馈，合理安排会话时间，避免过长导致参与者疲劳。同时，适当延长使用机器人的时间，让参与者有更多机会充分体验机器人的功能。
- 优化观察方式，尽量减少对参与者的干扰，降低他们的自我意识。例如，可以采用更隐蔽的观察设备或减少观察人员的存在感。
进一步研究方向
- 深入研究机器人对心理健康的作用机制，了解机器人是如何改善老年人的情绪和心理状态的，以便更好地优化机器人的设计和功能。
- 探索不同类型机器人在不同文化背景下的应用效果，为开发更具针对性的机器人干预方案提供依据。

以下是根据建议生成的优化试验流程的mermaid流程图：

graph LR
    A[试验规划] --> B[提前确定招募时间和地点]
    A --> C[加强宣传和沟通]
    A --> D[与合作机构建立紧密关系]
    B --> E[招募参与者]
    C --> E
    D --> E
    E --> F[调整试验设计]
    F --> G[合理安排会话时长和周期]
    F --> H[优化观察方式]
    G --> I[开展试验]
    H --> I
    I --> J[深入研究作用机制]
    I --> K[探索不同类型机器人应用效果]

6. 对未来机器人干预试验的展望

随着科技的不断发展，机器人在养老领域的应用前景广阔。本次试验为未来的机器人干预试验提供了宝贵的经验和启示。

个性化干预 ：未来的机器人可以根据参与者的个体差异，如年龄、文化背景、健康状况等，提供更加个性化的干预方案。例如，针对不同文化群体的价值观和需求，设计具有文化适应性的机器人交互内容。
多模态干预 ：结合机器人与其他技术，如虚拟现实、智能穿戴设备等，实现多模态的干预方式。这样可以为老年人提供更加丰富和全面的体验，进一步提高干预效果。
长期跟踪研究 ：开展长期的跟踪研究，观察机器人干预对老年人身心健康的长期影响。了解机器人在长期使用过程中的效果变化，以及是否会产生新的问题，为制定长期的养老服务策略提供依据。

总之，机器人干预试验在改善老年人身心健康方面具有巨大的潜力。通过不断优化试验设计、提高招募效率和深入研究作用机制，我们有望开发出更加有效的机器人干预方案，为老年人的生活质量提升做出更大的贡献。

展望方向	具体内容
个性化干预	根据个体差异提供个性化干预方案，设计文化适应性交互内容
多模态干预	结合机器人与其他技术，实现多模态干预方式
长期跟踪研究	开展长期跟踪，观察长期效果和新问题