本文是LLM系列文章,针对《Argument Quality Assessment in the Age of Instruction-Following Large Language Models》的翻译。
摘要
由于其对意见形成、决策、写作教育等的预期影响,对有争议问题的论点的计算处理一直受到NLP的广泛研究。在任何此类应用程序中,一项关键任务是评估论点的质量,但这也特别具有挑战性。在这篇立场文件中,我们从论点质量研究的简要调查开始,在调查中,我们确定质量概念的多样性及其感知的主观性是论点质量评估取得实质性进展的主要障碍。我们认为,遵循大型语言模型(LLM)的指令能力能够跨上下文利用知识,从而实现更可靠的评估。与其只是对LLM进行微调,使其在评估任务中排名靠前,不如系统地指导他们论证理论和场景,以及解决与论证相关问题的方法。我们讨论了现实世界的机遇和由此产生的伦理问题。
1 引言
2 近期研究综述
3 论证质量的LLM
4 真实世界的机遇
5 结论
论证质量评估已成为计算论证NLP研究的核心任务,因为它在各种应用中具有重要意义,从辩论技术和论证搜索到讨论节制和写作支持。然而,所涉及的质量概念的多样性及其感知的主观性往往阻碍了可靠的评估。在这份基于调查的立场文件中,我们提出了一个问题,即如何推动指令跟随大型语言模型(LLM)的研究,以提高论点质量,从而大幅发展现有技术。
我们对83篇最近论文的调查证实,除了计算评估和提高论点质量外,论点质量研究通常针对概念质量概念和影响这些概念的因素。我们认为,如果LLM不仅仅被简单地提示进行论点质量评估,而且如果找到了在指令微调期间指导LLM进行论点质量的系统方法,那么

本文探讨了大型语言模型(LLM)在评价有争议问题论点质量中的潜力,强调LLM的指令跟随能力能促进更可靠的评估。论文提出,通过系统指导LLM学习论证理论和方法,可以克服质量评估的主观性和多样性问题,同时指出由此引发的伦理挑战。
订阅专栏 解锁全文
1436

被折叠的 条评论
为什么被折叠?



