MLINGCONF: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models

最新推荐文章于 2025-07-26 19:00:43 发布

UnknownBody

最新推荐文章于 2025-07-26 19:00:43 发布

阅读量196

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily Survey Paper 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/138275291

LLM Daily 同时被 2 个专栏收录

1392 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Survey Paper

264 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文全面研究了大型语言模型的多语言置信度估计（MLINGCONF），填补了非英语置信度估计的空白。通过创建多语言QA数据集并提出跨语言置信度估计方法，提升模型性能和可靠性。实验表明，该方法能有效增强不同语言的置信度估计，对全球人工智能系统的可靠性作出贡献。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《MLINGCONF: A Comprehensive Study of Multilingual Confidence
Estimation on Large Language Models》的翻译。

摘要

大型语言模型（LLM）产生幻觉并对预测表现出过度自信的趋势引发了人们对其可靠性的担忧。表示模型响应可信度的置信度或不确定性估计对于开发可靠的人工智能系统至关重要。目前的研究主要集中在英语的LLM置信度估计上，这对其他广泛使用的语言来说仍然是一个空白，并阻碍了可靠的人工智能应用程序的全球发展。本文对LLM的多语言置信度估计（MLINGCONF）进行了全面的研究。首先，我们介绍了一个经过详细说明和专家检查的多语言QA数据集。其次，我们深入研究了置信度估计的性能，并研究了这些置信度分数如何通过跨不同语言的自精化来提高LLM的性能。最后，我们提出了一种跨语言置信度估计方法，以获得更精确的置信度得分。实验结果展示了各种置信度估计方法在不同语言中的性能，并表明我们提出的跨语言置信度估计技术显著增强了置信度估计，并优于几种基线方法。