高透明度高风险考试中不可靠AI评分器的部署策略
1. 引言
随着职场对计算技能的需求增加,大量学生选择参加编程入门课程。然而,这些课程的历史不及格率一直较高,有证据表明这可能是因为过早强调代码编写,而忽视了以阅读为导向的活动。其中,描述代码高级行为的能力是一项重要的阅读技能,“用通俗易懂的英语解释”(EiPE)问题可用于评估这一技能,但由于手动批改自然语言回答的工作量大,这类问题并未得到广泛应用。
最初,我们使用从课程助教和高年级计算机科学本科生那里收集的少量调查数据,训练了基于自然语言处理(NLP)的简单AI评分器,并将其部署在低风险的家庭作业中。这样做有两个目的:一是帮助学生提高用自然语言描述代码的能力,为此我们提供了即时的正确/错误反馈和示例答案;二是收集更多训练数据,以改进AI评分器。
家庭作业部署取得的积极成果让我们有信心将AI评分器应用于考试。这次考试部署具有高风险(该问题在期中考试中占学生最终成绩的10%)和高透明度(问题在计算机考试中交互式评分,并向学生展示正确答案,以便他们与自己的答案进行比较)的特点。
为避免因不完美的AI评分器导致学生大规模不满,我们提出了两个策略来减少假阴性结果:一是允许学生在首次尝试未获学分时多次尝试问题,希望他们能将答案重新表述为算法认可的形式;二是为学生提供申诉系统,让他们在看到正确答案后,如果认为AI评分有误,可以请求人工重新评分。这两个策略引出了两个研究问题:
- RQ1:为学生提供多次尝试机会,能否让假阴性答案在无需人工干预的情况下获得学分?
- RQ2:学生能否正确识别AI评分器的错误,并适当地申请人工重新评分?
2. 相关工作
自动批改自由回