本文是LLM系列文章,针对《TruthX: Alleviating Hallucinations by Editing Large Language Models
in Truthful Space》的翻译。
摘要
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,他们有时会产生幻觉,尤其是在拥有正确知识的情况下,他们可能会产生不真实的反应。在本文中,我们提出了TruthX,这是一种推理时间方法,通过编辑LLM在真实空间中的内部表示来引出LLM的真实性。TruthX使用自动编码器将LLM的表示分别映射到语义和真实潜在空间,并应用对比学习来识别真实空间内的真实编辑方向。在推理过程中,TruthX通过编辑LLM在真实空间中的内部表示,有效地增强了LLM的真实性。实验表明,在TruthfulQA基准上,TruthX有效地将13个高级LLM的真实性提高了平均20%。进一步的分析表明,TruthX获得的真实空间在控制LLM产生真实或幻觉反应方面发挥着关键作用。
1 引言
2 相关工作
3 TruthX
4 实验
5 分析
6 结论
在本文中,我们提出了TruthX,它通过在真实空间中编辑LLM来增强真实性。我们并不声称TruthX保证LLM会始终如一地做出真实的回应;相反,它旨在促使LLM更真实地做出回应。有希

TruthX是一种用于减少大型语言模型(LLM)幻觉的推理时方法,通过编辑LLM在真实空间的内部表示提高其真实性。实验显示在TruthfulQA基准上,TruthX能提升LLM真实性20%。
已下架不支持订阅
566

被折叠的 条评论
为什么被折叠?



