本文是LLM系列文章,针对《Large Language Models As Faithful Explainers》的翻译。
摘要
大型语言模型(LLM)最近通过利用其丰富的内部知识和推理能力,熟练地处理复杂的任务。因此,这种复杂性阻碍了传统的以输入为中心的解释算法来解释LLM的复杂决策过程。因此,通过自然语言格式的单一前馈推理来自我解释其预测的最新进展已经出现。然而,自然语言解释往往因缺乏忠实性而受到批评,因为这些解释可能无法准确反映LLM的决策行为。在这项工作中,我们引入了一个生成解释框架xLLM,以提高LLM的自然语言格式解释的可信度。具体来说,我们提出了一个评估者来量化自然语言解释的忠实度,并通过xLLM的迭代优化过程来提高忠实度,目的是最大化忠实度得分。在三个NLU数据集上进行的实验表明,xLLM可以显著提高生成解释的可信度,这与LLM的行为一致。
1 引言
2 前言
3 xLLM:解释者LLM框架
4 实验
5 结论
在本文中,我们提出了一个生成解释框架xLLM,以产生准确捕捉LLM预测行为的忠实解释。我们的框架采用了保真度增强策略,通过利用xLLM先前生成的输出中的见解,逐步改进新生成的解释和解释触发提示的保真度。在三个NLU数据集上的实验结果突出了xLLM生成的解释的独特忠实性。至于未来的工作,我们计划扩大xLLM,以调查高粘性应用,如医疗保健领域,由于黑匣

本文介绍了一种名为xLLM的框架,旨在提高大型语言模型(LLM)自然语言解释的忠实度。针对LLM决策过程的复杂性,xLLM通过量化解释的忠实度并迭代优化来确保解释与LLM行为的一致性。实验显示xLLM在多个NLU数据集上能显著提升解释的可信度。
已下架不支持订阅

被折叠的 条评论
为什么被折叠?



