Similarity-Based Content Scoring - A more Classroom-Suitable Alternative to Instance-Based Scoring?

题目

基于相似性的内容评分——比基于实例的评分更适合课堂的替代方案?

在这里插入图片描述

论文地址:https://aclanthology.org/2023.findings-acl.119/
项目地址:https://github.com/mariebexte/sbert-learning-curves

摘要

    自动对学生答案进行评分是一项重要任务,通常使用基于实例的监督学习来解决。最近,基于相似性的评分已被提出作为一种可产生类似性能的替代方法。它具有假设的优势,例如对带注释的训练数据的需求较低和零样本性能更好,这两个特性在将内容评分应用于现实课堂环境中时都非常有益。在本文中,我们通过在许多学习曲线实验中比较多个数据集上不同的基于实例和基于相似性的方法,仔细研究了这些所谓的优势。我们发现对数据和跨提示性能的需求相似,因此无法证实前两个建议的优势。默认情况下,基于相似性的方法提供反馈的可能性更直接,因此可能会使天平倾向于它,尽管未来的工作需要在实践中探索这一优势。

简介

    自动内容评分的方法可以分为两种范式:基于实例的评分和基于相似性的评分(Horbach 和 Zesch,2019)。图 1 给出了两者的示意图,内容评分领域的大多数工作都属于基于实例的范式,其中算法以学习者答案作为唯一信息来源进行训练,并直接从这些答案中学习正确和错误答案的属性。相比之下,在基于相似度的评分中,学习者答案与一个或多个目标答案进行比较,正确性判断基于与正确答案(例如样本解决方案)的相似性或与给定学习者答案最接近的答案的标签。

    与基于实例的范式相比,基于相似度的评分研究较少(例如,参见 Sakaguchi 等人 (2015))。Bexte 等人 (2022) 最近的研究表明,如果对相似度指标进行大幅微调,基于相似度的内容评分方法可以产生与基于实例的评分相当的结果。然而,它还表明需要进行更多研究才能了解它何时可以成功以及它与基于实例的评分相比如何。为此,我们首先确定了基于相似性评分的三个可能优势:减少数据需求、提高跨提示性能和可解释性。这些方面对于在现实课堂环境中应用自动评分非常有益:一个典型的课堂(理想情况下)不会由数百名学生组成,这意味着从学生那里收集大量问题的答案是不现实的。由于最先进的内容评分建立在特定提示的模型上,因此非常希望模型能够直接在这个较小的数量上很好地工作,或者至少在训练特定提示的模型时利用更大的现有跨提示数据。最后,反馈已被确定为学习成功的主要影响因素之一(Hattie 和 Timperley,2007),但一对一的师生时间有限,因此,与仅返回分数的绩效可比模型相比,可以证明其为何授予一定分数的模型更受欢迎。

    我们对两种范式在不同数据集上进行比较,这些数据集通常用于一种范式,而不用于另一种范式,重点关注数据有限的设置,并评估使用跨提示数据在多大程度上有助于克服这些限制。我们发现,虽然总体上高度依赖于跨提示数据的选择,但基于实例的评分效果更好。为了更全面地比较这两种范式,我们还计算了涵盖更广泛训练数据规模的学习曲线,虽然我们发现对于较少量的数据没有一种最佳方法,但有一种在这个点上,基于相似性的深度学习开始持续优于所有其他方法,紧随其后的是基于实例的深度学习。在比较基于训练数据的选择而变化的预测量时,我们发现基于相似性的预测的标准差总体较小。

基于实例与基于相似性的评分

在这里插入图片描述

    基于实例的评分已成为自动评分中事实上的最新技术。然而,最近的实验表明,随着深度学习的出现,基于相似性的模型可以跟上基于实例的模型:对于论文评分,Xie 等人 (2022) 在成对对比回归设置中使用 BERT 模型对论文与参考文献进行比较进行评分,从而超越基于实例的最新技术。对于内容评分,Bexte 等人 (2022) 通过在类似 knn 的搜索中使用微调的 SBERT 嵌入来达到与基于实例的 BERT 模型相当的性能,以寻找最相似的答案。

    Tunstall 等人 (2022) 引入了句子变换器微调 (SETFIT),它通过使用微调后的嵌入来训练分类头,成功地在少样本设置中使用了 SBERT。根据这种低资源设置,基于相似度的评分通常应用于每个提示仅包含少量答案的数据集。这包括计算机科学问题(Mohler 和 Mihalcea,2009 年;Mohler 等人,2011 年)、英语和德语阅读理解数据(Bailey 和 Meurers,2008 年;Meurers 等人,2011 年)以及几个在学生反应分析数据集 (Dzikovska et al, 2013) 上的方法,例如 Levy et al
(2013) 或最近的 Willms 和 Padó (2022)。

    尽管相比之下,对每个提示有数百个或更多答案的数据的研究通常与基于实例的方法相关联,例如大多数在 ASAP 数据集上的工作(例如,Higgins et al (2014); Heilman 和 Madnani (2015); Kumar et al (2019)),但这并不一定意味着基于相似性的模型的数据需求小于基于实例的模型,因为前者通常用于跨提示训练分类器。 不过,考虑到 SETFIT 在少数样本设置中取得的最新成功,我们通过对比两种范式在两种数据集上的表现来解决数据集中感知到的二分法。 这可以深入了解它们在数据需求方面的差异。为了研究基于相似度的评分在有限数据上的所谓优势,我们专注于对较少量训练数据进行学习曲线实验。

    然而,之前比较基于实例和基于相似度的评分的研究表明,基于相似度的性能接近各

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值