本文是LLM系列文章,针对《Adversarial Attacks on Large Language Models in Medicine》的翻译。
摘要
将大型语言模型 (LLM) 集成到医疗保健应用程序中,为医疗诊断、治疗建议和患者护理提供了有希望的进步。然而,LLM 对对抗性攻击的敏感性构成了重大威胁,在微妙的医疗环境中可能导致有害结果。本研究调查了 LLM 在三项医疗任务中对两种对抗性攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有 LLM 都容易受到跨多个任务的操纵。这项研究进一步揭示了,与一般域任务相比,特定域任务在模型微调中需要更多的对抗数据才能有效执行攻击,尤其是对于功能更强大的模型。我们发现,虽然整合对抗性数据不会显著降低模型在医学基准测试中的整体性能,但它确实会导致微调模型权重的明显变化,这表明了检测和对抗模型攻击的潜在途径。这项研究强调了迫切需要强大的安全措施和开发防御机制来保护医疗应用中的 LLM,以确保它们在医疗保健环境中安全有效地部署。