Conformal Tail Risk Control for Large Language Model Alignment

摘要

大语言模型(LLMs)的最新发展使其在各种任务中得到广泛应用。大语言模型在社会中的普及促使人们对其性能的可靠性提出了更高要求。特别是在风险敏感的应用场景中,需要特别关注那些意外的不良结果,即尾部事件,例如有害的回答、侮辱性语言和冒犯性输出。由于获取人工标注的成本较高,通用评分模型应运而生,以实现对这些尾部事件量化过程的自动化。这一现象导致了人机评分机制之间可能存在的不一致性。在这项工作中,我们提出了一种针对黑盒模型的轻量级校准框架,该框架可确保人机之间的一致性,并提供可证明的保证。我们的框架提供了一种严格的方法,能够以高置信度控制任何扭曲风险度量,该度量通过大语言模型损失的分位数加权平均来表征。我们方法的理论基础依赖于共形风险控制与传统统计量家族(即L统计量)之间的联系。为了证明我们框架的实用性,我们进行了全面的实验,以解决人机不一致的问题。

引言

大语言模型(LLMs)已在社会中广泛应用,涵盖了各种场景,包括对安全性要求较高的场景。虽然大语言模型通常表现出色,但它们仍有可能生成不良甚至灾难性的输出,包括错误信息、恶意用例和有害/有毒评论。尽管这些情况相对较少见,但每一次发生都可能对个人甚至整个社会造成重大危害。

诸如毒性之类的负面效用的量化概念通常基于获取成本高昂的人工标注。为了降低劳动力成本,人们开

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值