LLMS KNOW MORE THAN THEY SHOW: ON THE INTRINSIC REPRESENTATION OF LLM HALLUCINATIONS

最新推荐文章于 2025-12-12 17:54:27 发布

UnknownBody

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量243

点赞数 2

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：人工智能算法语言模型

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/142982533

LLM Daily 专栏收录该内容

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《LLMS KNOW MORE THAN THEY SHOW: ON THE INTRINSIC REPRESENTATION OF LLM HALLUCINATIONS》的翻译。

摘要

大型语言模型（LLM）经常产生错误，包括事实不准确、偏见和推理失败，统称为“幻觉”。最近的研究表明，LLM的内部状态编码了有关其输出真实性的信息，并且这些信息可用于检测错误。在这项工作中，我们表明LLM的内部表示编码了比以前认识到的更多的关于真实性的信息。我们首先发现，真实性信息集中在特定的token中，利用这一特性可以显著提高错误检测性能。然而，我们发现，这种错误检测器无法跨数据集进行泛化，这意味着——与之前的说法相反——真实性编码不是通用的，而是多方面的。接下来，我们展示了内部表示也可以用于预测模型可能产生的错误类型，从而促进量身定制的缓解策略的发展。最后，我们揭示了LLM的内部编码和外部行为之间的差异：它们可能会对正确答案进行编码，但始终会产生不正确的答案。综上所述，这些见解加深了我们从模型内部角度对LLM错误的理解，这可以指导未来加强错误分析和缓解的研究。