Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量169

点赞数 2

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139113630

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文提出了一种新的匿名众包平台BingJian，用于评估大型语言模型，重点关注个性化评估。该平台允许用户提交问题并参与模型排名，同时考虑个人特征和上下文，提供集中和开放的评估方式，通过人机交互丰富评估环境，并通过可视化分析用户偏好。

本文是LLM系列文章，针对《Towards Personalized Evaluation of Large Language Models with
An Anonymous Crowd Sourcing Platform》的翻译。

摘要

大型语言模型评价在提高其能力方面起着至关重要的作用。以前，在这个领域已经提出了许多评估大型语言模型的方法。尽管这些现有的工作很有效，但它们主要侧重于评估客观问题，而忽略了评估主观问题的能力，这在大型语言模型中非常常见。此外，这些方法主要利用集中的数据集进行评估，问题库集中在评估平台本身。此外，这些平台采用的评估过程往往忽视了个性化因素，忽视了评估者和被评估模型的个人特征。为了解决这些局限性，我们提出了一个新的匿名众包评估平台BingJian，用于大型语言模型，该平台采用竞争性评分机制，用户根据自己的表现参与排名模型。该平台的突出之处不仅在于它支持集中评估，以评估模型的总体能力，而且还在于它提供了一个开放的评估门户。通过这个网关，用户有机会提交他们的问题，在个性化和潜在的更广泛的功能上测试模型。此外，我们的平台引入了个性化评估场景，利用各种形式的人机交互，以考虑个人用户偏好和上下文的方式评估大型语言模型。BingJian的演示可以访问https://github.com/Mingyue-Cheng/Bingjian.