本文是LLM系列文章,针对《Argument Quality Assessment in the Age of Instruction-Following Large Language Models》的翻译。
摘要
由于其对意见形成、决策、写作教育等的预期影响,对有争议问题的论点的计算处理一直受到NLP的广泛研究。在任何此类应用程序中,一项关键任务是评估论点的质量,但这也特别具有挑战性。在这篇立场文件中,我们从论点质量研究的简要调查开始,在调查中,我们确定质量概念的多样性及其感知的主观性是论点质量评估取得实质性进展的主要障碍。我们认为,遵循大型语言模型(LLM)的指令能力能够跨上下文利用知识,从而实现更可靠的评估。与其只是对LLM进行微调,使其在评估任务中排名靠前,不如系统地指导他们论证理论和场景,以及解决与论证相关问题的方法。我们讨论了现实世界的机遇和由此产生的伦理问题。
1 引言
2 近期研究综述
3 论证质量的LLM
4 真实世界的机遇
5 结论
论证质量评估已成为计算论证NLP研究的核心任务,因为它在各种应用中具有重要意义,从辩论技术和论证搜索到讨论节