如果你想找一个表面上聪明的人是如何不小心把别人的生活搞得一团糟的例子,那就看看去年英国公开考试的情况吧。
简而言之:政府认识到科维德-19的威胁,取消了英国学生的公开考试。 在寻求另一种评分方法时,政府及其教育监管机构可以说是由于无知或选择而违反了法律。 他们似乎忽略了一个事实,即他们所做的不仅仅是统计工作:它直接和破坏性地影响了个人。
这到底是怎么发生的? 在 "Ofqual Algorithm "的故事中,所有行业的组织都可以学到实用和道德的教训,以及它是如何出错的。
预测成绩
2020年3月,英国政府教育部长加文-威廉姆森宣布,由于科维德大流行,2020年的所有公开考试将被取消,以避免加速该大流行。 取而代之的是,学生将根据教师的评估来获得成绩。
这些考试,包括16岁时参加的GCSE(义务教育的结束),以及A-levels(用作大学入学考试),真的很重要。
取而代之的是,英国学历与考试管理办公室(Office of Qualifications and Examinations Regulation)--被称为Ofqual的英国监管机构--要求教师提供预测成绩,即中心评估成绩,或称CAG。 威廉姆森的指示要求监管机构根据教师 "对其相关科目能力的判断,并辅以一系列其他证据 "来计算学生的成绩。
然而,Ofqual担心,教师往往对学生的成绩过于乐观,这将导致授予比学生应得的更高的分数。 它还担心会回到以前普遍存在的分数膨胀时代。 去年夏天,它发表了一份临时报告,警告说仅仅依靠CAG将 "有可能导致全国的总体结果高得离谱。 如果我们根据CAG来打分,我们将看到整体成绩的增长远远超过我们在一年中所看到的"。
为了试图克服这个问题,教师们还被要求为每个学生指定一个排名。 排名是一个简单的数字,从表现最好到最差,没有重叠。 Ofqual 表示,这些排名将被用于 "标准化判断--允许对各学校和学院适用的标准进行微调"。
在现实中,正如我们所看到的,对大多数学生来说,最终获得的成绩完全是基于这些排名,而教师的成绩则完全被忽略。
该算法是如何运作的
监管机构开发了一个数学模型,在Ofqual报告中做了详细描述。 这个模型相当复杂,但已经被开放数据研究所的副主席 Jeni Tennison分解 了。
例如,它是如何确定A-level考试的:对于每个学校的每个科目,如果这个子集的学生超过15人,Ofqual就会收集过去三年的成绩信息,然后计算出从最高的A*到最低的U(未分类)的成绩分布。 如果学生看起来比前几年的学生更有成就,则根据他们的GCSE成绩,对预测值进行上下调整。
然后,Ofqual确定,例如,某所学校在某一科目上将获得3个A*、5个As、10个B、15个C、6个D、2个E和1个U,并利用教师的排名来分配成绩。 在这个假设的例子中,如果你排名靠前,你会得到A*-而如果你排名靠后,你会得到U,不管你的老师给你的成绩如何。
对于5至15名学生的班级,则采用了教师评估评分和算法调节的组合。 最后,如果参加某个考试科目的学生少于5人,尽管知道至少在某些情况下,教师的预测是乐观的,但Ofqual还是简单地使用了CAGs,没有改变。
计划是将同样的方法用于GCSE考试。 一个区别是,由于最近对这些考试进行了全面改革,没有先前的公开考试数据可用于纠正群组能力的差异。也就是说,由于GCSE考试的报名人数较多,无论如何差异都会比较小。 由于政府在这之前改变了方针,所以GCSE的算法生成的结果从未公布。
出了什么问题?
这种方法至少有三个明显的问题,现在回想起来似乎很明显:
该公式没有考虑到异常值。
如果你是一个杰出的数学家,而这个学校在过去三年中没有培养出一个杰出的数学学生,那么你根本不可能得到最高分--算法不允许这样。 这对全国各地表现不佳的学校中学习能力较强的学生尤其不公平,但其影响更广泛。
对学生的排名进行四舍五入,不公平地惩罚了一些学生。
第二个相关的问题,是四舍五入是如何进行的。 正如一些学生不可能获得最优秀的成绩,即使他们会获得这些成绩一样,你可以有这样一种情况,即算法确定学校排名第二低的学生是D,最低的是U。 你可以在下面的图表中看到这一点:

我为这篇文章采访的所有教师也提出了这样的观点:分配排名可能是任意的。 "伦敦弗朗西斯-荷兰学校斯隆广场分校的科学教师兼考试官员特里斯坦-马歇尔说:"你应该如何区分候选人222和候选人223,并把他们放在一个有意义的顺序中,我真的不确定。
这不仅仅是对大班学生的困难。 雷德希尔的圣贝德学校的戏剧校长Lian Downes告诉我,"似乎没有意识到这对人们的生活会产生什么影响。 对于我的A-level班级,我只有六个学生。 我投入了一个A、两个B和三个C,结果我有两个B、三个C和一个E。所以他们把我排名最低的学生从C级调到了E级,这完全是基于我必须做出一个基本任意的决定。"
Culford学校的艺术主管Tessa Richardson也提供了一个类似的例子:"在那一年,我没有任何低于B级的考生。 但是因为在过去的三年里,我一直有一个D级,算法说我必须有一个D级,因此给了我排名最末的学生一个D级,他实际上会得到一个低B级。"
小的数据集产生了统计学上无效的结果。
正如马歇尔所指出的,如果样本量较小,这个过程就不会产生统计学上有效的结果。
"他说:"你总共有15到20名学生,但你又把这些学生细分为每个不同年级的小类别。 "此外,根据设计,该算法每次都向下取整,所以如果你有0.99个学生得到A,该算法将其转化为0个A,而不是1。 我认为那是特别有害的。 坦率地说,它是无情的。"
最后,根据《卫报》的一篇报道,大约82%的A-level成绩是用该算法计算的,而英国460多万门GCSE考试--大约占总数的97%--完全由该算法分配。 然而,我们无法独立验证后一种说法,因为算法生成的GCSE成绩从未实际公布。
A-level成绩于2020年8月13日公布。 据英国广播公司(BBC)报道,近36%的人低于教师的评估(CAGs)。 3.3%的人下降了两个等级,0.2%的人下降了多达三个等级。
法律挑战
来自伦敦西部伊灵的18岁少年柯蒂斯-帕菲特-福德(Curtis Parfitt-Ford)找到了Foxglove Legal,一个小型的非营利性辩护机构,因为他对考试结果不满意--尽管他在汉威尔的埃尔索恩公园中学(Elthorne Park High School)获得了两个A*和两个A的预估成绩。
帕菲特-福德告诉我:"算法并没有触及我的成绩,""但我在那天走进我的学校,看到很多学生受到了非常大的影响。 我看到学生们在哭泣,因为他们被降低了几个等级。 而周围没有人可以解释。 更糟的是,在成绩公布日,上诉程序仍然不明确。"
除了是一名学生,帕菲特-福德还是英国进步运动的数字游说系统Loudspeak的创始人和主管。 "在这个领域工作后,我对数据保护规则有相当扎实的了解,我怀疑这不符合[欧盟的《通用数据保护条例》],因为GDPR赋予你选择退出任何对你有法律或类似重大影响的自动分析的权利。"
GDPR构成了Foxglove Legal提起的案件的一部分,但还有其他法律挑战的理由。 Parfitt-Ford告诉我,另一个基石是Ofqual "超出了法律规定的范围,即提供个性化的评估"。 也有理由认为该算法是歧视性的。
Foxglove团队最远发送了一封预诉讼信,但该案没有提交给法官。 在公布A-level成绩后仅四天,监管机构就改变了方向,同意学生应该获得CAG成绩而不是算法预测的成绩。
大学和学院招生服务中心(UCAS)后来表示,共有1.5万名学生因算法产生的成绩而被他们的第一志愿大学拒绝,虽然逆转的决定有所帮助,但许多人仍然因此错过了大学名额。 唐斯说:"我的一个学生本应得到A,但却被调到了B,"。
"当决定扭转课程时,它又升到了A,但对她来说已经太晚了,她没有得到任何大学的名额,"这位老师说。 "当成绩被纠正的时候,所有的课程都已经满了。 她现在在马克斯和斯宾塞公司工作,等待重新申请。 这将伴随着我。 这是一个经历过挣扎的年轻人,由于一种算法,她错过了一个她有权获得的名额。"
广泛的教训
欧福林算法的故事很有趣,部分原因是它说明了自动化过程的危险性,这对现实生活有很大影响。 这里有一些可以从整个经历中得出的广泛教训。
同行评审可以帮助识别有缺陷的假设。
在阅读英国教育标准局的文件时,我发现一个非常惊人的现象是,虽然过程中的每一步都是有意义的,你可以看到如何从一个步骤到下一个步骤,但也有点令人惊讶的是,似乎没有人看了整个算法,发现了任何问题。
像编程中的代码审查这样的技术时好时坏,但我个人是它们的超级粉丝,至少在它们不那么正式的、基于变化的形式中。 做得好的话,一个不熟悉代码和代码背后的推理的人可以发现那些曾经在这个问题上工作过的人可能不会发现的东西。 内部(或者更好的是,外部)的同行评审可能会发现Ofqual案例中的一些问题。
在我管理的软件项目中,一些最有用的建议发生在我们把外部人员请来的时候--例如,在编写太多的软件之前,对架构和早期代码做安全审查。 在这种情况下,如果有人被带入并通过算法,他们很可能会发现一些边缘情况和潜在的问题。
把合适的人带进做决定的房间。
我不确定,但在我看来,如果研究该算法的团队与教师讨论该算法,一些缺陷可能会更早地被发现。 正如理查德森所说,"为什么你不先通过教师小组,甚至在提出设计方案之前。
Parfitt-Ford进一步说:"我不是律师,我当然也不是教育专家或道德专家。 政府应该有这三个人,而且这三个人都应该参与这个过程。 我不知道他们是否参与了,但如果他们参与了,为什么没有人问这是否在Ofqual可以做的范围内? 这是否符合GDPR的要求? 我认为这些问题一开始就没有被问到,这可以说比产生的结果更令人担忧。"
英国政府本可以利用统计专家的专业知识,但却没有这样做。 后来发现,英国皇家统计学会曾提出帮助构建算法,但当他们看到将被要求签署的保密协议的性质时,撤回了这一提议。 考虑到做对的重要性,Ofqual的反应是不考虑改变NDA,这似乎很特别。
验证结果。
在研究一种算法时--无论是基于机器学习的算法,还是像本案例中那样更简单的算法--能够验证结果是至关重要的。 理想情况下,你需要能够参考某种地面真相来验证你所使用的模型或算法的可靠性。 为可测试性设计系统会影响设计。
在一个完美的世界里,你会希望能够将Ofqual算法的结果与历史数据进行比较,以了解它们在单个学生层面上的准确性如何。 这里的问题是,这个排名系统以前没有被使用过,这意味着它产生的结果无法被提前验证。
在这种情况下,另一种方法是寻找异常值,因为它们往往可以标明数据或报告方法中的问题。 当算法将学生的成绩提高或降低超过一个等级时,应该有巨大的红色警告响起。 "马歇尔说:"如果学生下降超过一个年级,那就出了大问题。 "你不会弄错两个年级的。"
建立和维护心理安全。
此外,你需要考虑你所创造的环境是否允许人们畅所欲言。 如果你是一个管理者,那么心理安全就是其中的一部分。
在你的一对一会议中,你可以,也应该为你的直接报告创造空间,让他们说话,你应该愿意提问。 ("你对这个有什么顾虑吗?")在我看来,没有一个从事这个算法的人对其有效性产生怀疑是不可能的。 我不知道他们是否被提出来并被驳回,或者他们从未被提出。 但显然,任何疑虑都没有被采纳。
作为一名管理者,要始终倾听那些告诉你你不想听的事情的人,花时间去思考,并采取行动。 如果有人敢于向你提出一个真正的问题,那么极有可能其他人也有担忧,但没有足够的信心或把握说出来。
"帕菲特-福德说:"作为技术专业人员,我认为在开发过程中花时间思考你所做的事情是否正确和公平,以及它可能被滥用,这一点真的很重要。
考虑到对个人的影响。
最后,永远不要忽视你的工作会影响到真实的人这一事实。 "马歇尔告诉我,"使用计算机技术来补充教育或任何其他部门是很好的,但如果你这样做而不考虑你所影响的个人,我真的认为你有一个问题。
英国教育考试院Ofqual的算法在预测2020年学生的成绩时遭遇失败,导致不公平的结果。算法基于过去成绩和学生排名,忽略了异常值,对排名进行四舍五入,以及小数据集的统计无效性。法律挑战和公众压力迫使Ofqual改变决定,采用教师评估成绩。此事件提供了同行评审、决策透明度和考虑个人影响等教训。

4995

被折叠的 条评论
为什么被折叠?



