本文是LLM系列文章,针对《DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS》的翻译。
摘要
大型语言模型(llm)在各种评价基准中取得了显著的成绩。然而,对其性能的担忧是由于其大量的训练语料库中潜在的数据污染。此外,当前基准的静态性质和固定复杂性可能无法充分衡量llm的先进能力。本文介绍了一种新颖、通用、灵活的LLM动态评价协议DYVAL。基于我们提出的动态评估框架,我们利用有向无环图的结构优势,构建了基于图的DYVAL,以动态生成具有可控复杂性的评估样本。DYVAL在推理任务上生成具有挑战性的评估集,包括数学、逻辑推理和算法问题。我们评估了从Flan-T5-large到ChatGPT和GPT-4的各种llm。实验表明,llm在dyval生成的不同复杂度的评价样本中表现较差,强调了动态评价的重要性。分析了不同提示方法的失败案例和结果。此外,dyval生成的样本不仅是评估集,也是用于微调以提高llm在现有基准测试中的性能的有用数据。我们希望DYVAL能对未来LLM的评价研究有所启发。
1 引言
2 相关工作
3 DYVAL
4 实验
5 DYVAL帮助进行微调
6 结论和讨论
我们提出DYVAL,一个动态llm评估协议,以减轻现有基准的数据污染和静态复杂性。我们为推理任务设计了带有图形的DYVAL。DYVAL的优势在于它可以动态生成样本,具有调整难度的灵活性。我们在使用基准的实验中观察到几个有趣的发现。更重要的是,dyval
DYVAL是一种新型的大型语言模型动态评价协议,通过构建基于图的评估来应对数据污染和静态基准的问题。它能生成具有可控复杂性的推理任务,包括数学、逻辑和算法挑战,揭示了动态评估的必要性。实验显示,即使对于最先进的模型,如ChatGPT和GPT-4,DYVAL也能暴露其弱点,并可用于微调以提升性能。
已下架不支持订阅
1049

被折叠的 条评论
为什么被折叠?



