高透明度高风险AI评分策略与AI辅助可访问培训探索
1. 高透明度高风险AI评分策略
1.1 “用简单英语解释”问题自动评分效果
自动评分“用简单英语解释”(EiPE)问题可能比其他自动短答案评分(ASAG)情境更简单。仅使用二元语法,准确率就能达到88.78%,与使用更复杂算法的其他ASAG结果相比具有竞争力。这可能是因为特定的学科词汇,如“count”“even”等,能有效标记学生答案是否正确。
1.2 训练数据的有效性
学生的作业响应在训练算法预测学生考试响应方面比调查数据更有效。虽然调查数据能让算法在低风险作业情境中收集训练数据,但可以减少调查响应的数量,尤其是快速评分早期作业响应并重新训练模型。
1.3 学生对NLP模型准确性的感知
学生对NLP模型准确性的感知在统计上显著低于对其他问题类型的感知,但差异较小。确定性自动评分器和NLP模型本质上不同,学生对确定性自动评分器的评分低于预期,NLP模型的评分仅比确定性自动评分器低0.48个标准差。
1.4 多次尝试的影响
1.4.1 对假阴性(FN)的影响
提供多次尝试能让假阴性学生在无需人工干预的情况下获得学分,但存在一些问题。部分首次尝试为假阴性的学生通过提交假阳性(FP)答案获得学分,这可能阻碍他们的学习。而且许多学生在多次尝试中提交概念上不同的答案,而不仅仅是重新表述答案。
1.4.2 对假阳性(FP)的影响
多次尝试导致假阳性率上升。因为一些学生在不知道答案的情况下,将多次尝试作为“盲目猜测”的机会,改变答案以获得学分,部分尝试导致了