本文是LLM系列文章,针对《Pragmatic Competence Evaluation of Large Language Models for Korean》的翻译。
摘要
目前对大型语言模型(LLM)的评估主要依赖于通过多项选择题(MCQ)进行测试来关注其嵌入知识的基准,这是一种天生适合自动评估的格式。我们的研究扩展了这一评估,以探索LLM的语用能力——在复杂的LLM出现之前,特别是在韩语的背景下,这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置:适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题(OEQ),以在没有预定义选项的情况下检查LLM的叙述性反应能力。我们的研究结果表明,GPT-4表现出色,在MCQ和OEQ设置中分别获得81.11分和85.69分,HyperCLOVA X是一种针对韩语优化的LLM,紧随其后,尤其是在OEQ设置下,与GPT-4相比,得分为81.56分,边际差为4.13分。此外,虽然少镜头学习策略通常会提高LLM的性能,但思维链(CoT)提示引入了对字面解释的偏见,阻碍了准确的语用推理。考虑到人们对LLM理解和产生符合人类交际规范的语言的期望越来越高,我们的研究结果强调了提高LLM掌握和传达复杂含义的能力的重要性,而不仅仅是字面解释。
1 引言
2 相关工作
3 方法
4 实验
5 案例研究:LLM对OEQS反应的深入分析
6 结论与未来工作
在这项研究中,我们解决了LLM评估中一个未被充分探索的方面——LLM的语用评估,特别关注韩语。我们开发了一个包含120个测

该研究扩展了对大型语言模型(LLM)的评估,特别是韩语背景下的语用能力。通过传统多项选择题和开放式问题,分析GPT-4、HyperCLOVA X等模型的表现。结果显示,GPT-4在两种设置中表现出色,但CoT提示可能影响其语用推理。研究强调了评估LLM理解复杂含义而非仅字面解释的重要性。
订阅专栏 解锁全文
501

被折叠的 条评论
为什么被折叠?



