思维链推理自动化检测大模型幻觉

自动化幻觉检测与思维链推理

当大型语言模型(LLM)被提示诸如"圣约翰草可能与哪些药物发生相互作用?"的请求时,它不会搜索经过医学验证的药物相互作用列表(除非经过专门训练),而是根据与圣约翰草相关的词汇分布生成列表。结果很可能是真实药物与潜在虚构药物的混合,具有不同程度的相互作用风险。这类LLM幻觉——听起来合理但可验证为错误的断言或主张——仍然阻碍着LLM的商业化应用。虽然在医疗保健等领域有减少幻觉的方法,但识别和测量幻觉的需求仍然是生成式AI安全使用的关键。

在最近一次自然语言处理实证方法会议(EMNLP)上发表的论文中,描述了一种名为HalluMeasure的幻觉测量方法,该方法采用了三种技术的新颖组合:声明级评估、思维链推理和幻觉的语言错误类型分类。

HalluMeasure首先使用声明提取模型将LLM响应分解为一组声明。通过使用单独的声明分类模型,通过将声明与上下文(与请求相关的检索文本,同样输入分类模型)进行比较,将声明分为五个关键类别(支持、缺失、矛盾、部分支持和不可评估)。此外,HalluMeasure将声明分为10种不同的语言错误类型(例如实体、时间和过度泛化),提供对幻觉错误的细粒度分析。最后,通过测量不支持声明(即被分配为非支持类别的声明)的比例并计算细粒度错误类型的分布来生成聚合幻觉分数。这种分布为LLM构建者提供了有关其模型所犯错误性质的有价值见解,促进针对性改进。

将响应分解为声明

该方法的第一步是将LLM响应分解为一组声明。"声明"的直观定义是可以根据上下文进行评估的最小信息单元;通常,它是带有主语和(可选)宾语的单个谓词。

选择在声明级别进行评估是因为单个声明的分类提高了幻觉检测准确性,并且声明的更高原子性允许更精确的测量和幻觉定位。与现有方法不同,该方法直接从完整响应文本中提取声明列表。

声明提取模型使用少样本提示,从初始指令开始,随后是一组概述任务要求的规则。还包括一组示例响应及其手动提取的声明。这种全面的提示有效地教导LLM(无需更新模型权重)从任何给定响应中准确提取声明。一旦声明被提取,就按幻觉类型进行分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值