摘要
大语言模型(LLMs)的最新发展使其在各种任务中得到广泛应用。大语言模型在社会中的普及促使人们对其性能的可靠性提出了更高要求。特别是在风险敏感的应用场景中,需要特别关注那些意外的不良结果,即尾部事件,例如有害的回答、侮辱性语言和冒犯性输出。由于获取人工标注的成本较高,通用评分模型应运而生,以实现对这些尾部事件量化过程的自动化。这一现象导致了人机评分机制之间可能存在的不一致性。在这项工作中,我们提出了一种针对黑盒模型的轻量级校准框架,该框架可确保人机之间的一致性,并提供可证明的保证。我们的框架提供了一种严格的方法,能够以高置信度控制任何扭曲风险度量,该度量通过大语言模型损失的分位数加权平均来表征。我们方法的理论基础依赖于共形风险控制与传统统计量家族(即L统计量)之间的联系。为了证明我们框架的实用性,我们进行了全面的实验,以解决人机不一致的问题。
引言
大语言模型(LLMs)已在社会中广泛应用,涵盖了各种场景,包括对安全性要求较高的场景。虽然大语言模型通常表现出色,但它们仍有可能生成不良甚至灾难性的输出,包括错误信息、恶意用例和有害/有毒评论。尽管这些情况相对较少见,但每一次发生都可能对个人甚至整个社会造成重大危害。
诸如毒性之类的负面效用的量化概念通常基于获取成本高昂的人工标注。为了降低劳动力成本,人们开