TRUSTLLM: TRUSTWORTHINESS IN LARGE LANGUAGE MODELS

828 篇文章

已下架不支持订阅

本文深入探讨大型语言模型(LLM)的可信度,介绍TRUSTLLM项目,涵盖真实、安全、公平、稳健、隐私和机器伦理六个维度的评估。研究发现,LLM的可信度与其效用正相关,但开源和专有模型之间存在差距,且部分模型过度表现出可信度,可能导致误判。此外,LLM在公平性、隐私保护和复杂伦理场景中的表现有待提高,强调了提升LLM可靠性和道德一致性的重要性。

本文是LLM系列文章,针对《TRUSTLLM: TRUSTWORTHINESS IN LARGE LANGUAGE MODELS》的翻译。

摘要

以ChatGPT为例的大型语言模型(LLM)以其卓越的自然语言处理能力而备受关注。尽管如此,这些LLM还是带来了许多挑战,尤其是在可信度方面。因此,确保LLM的可信度成为一个重要的课题。本文介绍了TRUSTLLM,这是一项关于LLM可信度的综合研究,包括可信度不同维度的原则、主流LLM的可信度基准、评估和分析,以及对公开挑战和未来方向的讨论。具体来说,我们首先提出了一套可信赖LLM的原则,涵盖了八个不同的维度。基于这些原则,我们进一步建立了六个维度的基准,包括真实性、安全性、公平性、稳健性、隐私和机器伦理。然后,我们提出了一项研究,评估TRUSTLLM中的16个主流LLM,包括30多个数据集。我们的研究结果首先表明,总体而言,可信度和效用(即功能有效性)呈正相关。例如,GPT-4、ERNIE和Llama2等LLM在刻板印象分类中表现出很强的性能,往往更可靠地拒绝刻板印象陈述。同样,以精通自然语言推理而闻名的Llama2-70b和GPT-4表现出对对抗性攻击的更强抵抗力。其次,我们的观察结果表明,专有LLM在可信度方面通常优于大多数开源LLM,这引发了人们对广泛访问的开源LLM的潜在风险的担忧。然而,一些开源LLM与专有LLM非常接近。值得注意的是,Llama2在几个任务中表现出了卓越的可信度,这表明开源模型可以在没有额外机制(如调节器)的情况下实现高水平的可信度,为该领域的开发人员提供了有价值的见解。第三,重要的是要注意,一些LLM,如Llama2,可能过于倾向于表现出可信度,以至于它们错误地将良性提示视为有害的,从而没有反应,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值