MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models

本文是LLM系列文章,针对《MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models》的翻译。

摘要

随着大型语言模型(LLM)发展出越来越复杂的功能并在医疗环境中找到应用,评估其医疗安全变得非常重要,因为它们对个人和公共健康、患者安全和人权具有深远的影响。然而,在LLM的背景下,人们对医疗安全的概念几乎没有了解,更不用说如何评估和改进它了。为了解决这一差距,我们首先根据美国医学协会提出的医学伦理原则定义LLM中的医疗安全概念。然后,我们利用这一理解引入MedSafetyBench,这是第一个专门用于测量LLM医疗安全性的基准数据集。我们通过使用MedSafetyBench来评估和提高LLM的医疗安全性,展示了它的实用性。我们的研究结果表明,公开的医疗LLM不符合医疗安全标准,使用MedSafetyBench对其进行微调可以提高其医疗安全性。通过引入这一新的基准数据集,我们的工作能够对LLM的医疗安全状况进行系统研究,并推动该领域未来的工作,从而降低LLM在医学中的安全风险。

1 引言

2 相关工作

3 MedSafetyBench:评估和提高大型语言模型的医疗安全性

4 实验

5 讨论与结论

在这项工作中,我们研究LLM的医疗安全性。我们定义了LLM的医疗安全概念,并利用这一定义开发了MedSafetyBench,这是LLM医疗安全的第一个基准数据集。使用MedSafetyBench,我们评估并提高LLM,发现公开可用的医疗LLM不符合医疗安全标准,并且使用基准数据集对其进行微

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值