DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS

UnknownBody

于 2023-10-09 09:13:25 发布

阅读量764

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133693834

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

DYVAL是一种新型的大型语言模型动态评价协议，通过构建基于图的评估来应对数据污染和静态基准的问题。它能生成具有可控复杂性的推理任务，包括数学、逻辑和算法挑战，揭示了动态评估的必要性。实验显示，即使对于最先进的模型，如ChatGPT和GPT-4，DYVAL也能暴露其弱点，并可用于微调以提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS》的翻译。

大语言模型的基于图形的动态评估

摘要
1 引言
2 相关工作
3 DYVAL
4 实验
5 DYVAL帮助进行微调
6 结论和讨论

摘要

大型语言模型(llm)在各种评价基准中取得了显著的成绩。然而，对其性能的担忧是由于其大量的训练语料库中潜在的数据污染。此外，当前基准的静态性质和固定复杂性可能无法充分衡量llm的先进能力。本文介绍了一种新颖、通用、灵活的LLM动态评价协议DYVAL。基于我们提出的动态评估框架，我们利用有向无环图的结构优势，构建了基于图的DYVAL，以动态生成具有可控复杂性的评估样本。DYVAL在推理任务上生成具有挑战性的评估集，包括数学、逻辑推理和算法问题。我们评估了从Flan-T5-large到ChatGPT和GPT-4的各种llm。实验表明，llm在dyval生成的不同复杂度的评价样本中表现较差，强调了动态评价的重要性。分析了不同提示方法的失败案例和结果。此外，dyval生成的样本不仅是评估集，也是用于微调以提高llm在现有基准测试中的性能的有用数据。我们希望DYVAL能对未来LLM的评价研究有所启发。

1 引言

2 相关工作

3 DYVAL

4 实验

5 DYVAL帮助进行微调

6 结论和讨论

我们提出DYVAL，一个动态llm评估协议，以减轻现有基

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。