随着社会创新活力日益增强,企业、学会等举办的创新型竞赛正向着参赛规模扩大化,参赛地域全国化以及参赛水平多样化的方向发展,在有限的评审资源的约束下,如何设计一整套完整的评审流程,将成为支撑比赛公平性的关键一环。科学的评审流程应该具有评阅双向均匀化、一致性高、容错性强、发掘创新型准等特点。本文以“创新型”竞赛为任务背景,问题一至问题三分别致力于解决评审全流程中的分发评审作品、分数标准化计算、极差调整、多阶段赋分排名等关键环节的科学性与问题优化。
问题一, 首先分析了在 3000 份作品,125 位评委,5 次评阅的条件下,能够产生 7750个评委对,每对评委之间的平均交集数为 3.87. 其次,构建了论文分配模型,根据作品的评阅次数要求、评委的工作量应保持在同一水平的要求,建立了模型的约束条件。将评委作品集合的交集尽可能均衡的要求转化为两个目标函数:(1) 彼此之间的存在交集的评委对尽可能多;(2) 所有评委的最大交集数与最小交集数之差尽可能少。即先保证所有评委之间有交集,再考虑作品交集均衡这一目标。基于该模型,设计了基于模拟退火的两阶段交叉算法求解,通过改变交叉幅度与交叉对象,分两阶段进行方案优化。经过 10 次实验,求得的分配方案的评委最大最小交集差的平均值为9.4,没有交集的评委对数的平均值为104.9,交集度为 98.64%,明显优于另外两种随机分配方案。
问题二部分,核心问题在于设计标准化计算公式以及改善成绩计算方案。首先,我们从每个专家、每件作品的角度进行成绩分析,专家总体层面,存在评分均值差异大的情况,作品层面也存在极差大的问题。个体层面,不同专家的评分偏好差异大。我们分别采用现有的两个方案进行排名,并提出了优劣对比指标:排名重合度、平均乱序度,最大乱序度以及分数标准差。通过计算,去除极差的方案二效果优于仅采用标准化的方案一。我们针对针对这两方面,我们提出了 WLT 修正公式——基于评分尺度系数折算的综合评分加权 T分数法。该公式由专家综合评分、评分尺度系数以及 T 分数法标准化三部分组成:(1) 专家综合评分考虑了评委维度的偏差度与区分度指标,其中偏差度 w 指标反映了组内误差,而区分度 s 反映了组间误差,二者通过计算比值即可得到每位专家的综合评分,综合评分反映了专家的可信程度 (2) 评分尺度从作品、专家两个维度综合运用数据,作为标准分之间进行加和的赋权值。(3)T 分数法,即原题中的标准化公式。我们利用修正公式对第一阶段数据进行标准化,结合第二阶段评分重新排名,将得到的排名结果与一等奖排名进行重合度计算,得到的重合度为 11.11%,平均乱序度为 6,分数标准差为 0.4974,小于现有方案,具有较好的一致性。
问题三部分,(1) 我们首先基于附件数据分析了两阶段前后的整体成绩与极差变化。从排名变化的统计指标来看,第二阶段中获得一等奖作品的逆序度为 0.2680,乱序度为 328,而入选第二阶段作品的整体逆序度为 0.3,乱序度为 12250,均高于一等奖作品。对比两阶段与不分阶段的优劣方面,通过绘制三个阶段极差的频率直方图和箱线图发现,第二阶段的分数均匀性优于第一阶段。(2) 其次,我们建立了程序化极差调整模型,主要通过确定极差阈值、识别调整模式、分类器模型自主学习预测以及计算调整幅度四个方面完成自动化调整极差的功能。其中极差调整阈值为 20,超过 20 的即为大极差,而极差调整模式包括六类,即调整最小值、中间值以及最大值中的一个或两个。分类预测模型的选择方面,我们通过训练,得到 Adaboost 集成优化、KNN 以及 Bagging 三类模型的准确率分别为85%、69.2%、82.1%,因此最终选择 Adaboost 模型。最后我们利用训练好的模型对数据
2.1 中的第一阶段非高非低类作品进行极差调整,筛选出了大极差作品为编号 199、248、250、260、266、269、273 七件代表性作品,认为其具有创新型的潜能,因此调整极差后能够进入第二轮评审。
问题四在现有流程基础上,将评审流程分为:(1) 论文分配 (2) 基于序关系的淘汰机制 (3) 极差分数修正,WTF 修正分数排序 (4) 最终复审四个阶段。在论文分配阶段,基于问题一中的论文分配模型,进一步考虑了学校与评委、作品之间的关系,对论文分配模型进行了完善。在基于序关系的淘汰机制阶段,结合等级制作品评阅水平准确度较高的优点,在这一阶段进行 3 次论文评阅,将所给分数转化为正态上侧百分比 (NUD) 排名并,根据排名划分了高序列(S)、中间序列 (M)、低序列 (L)3 个等级。然后,将 3 次评阅结果都是低序列 L,L,L 或者 1 次中序列 2 次低序列 L,L,M 的作品淘汰。剩余作品继续完成 2 次评阅,极差修正后,将 5 次评阅的结果进行 WTF 标准化,进入复审阶段,复审阶段与原有流程保持一直。对基于序关系的筛选机制进行合理性分析后,在数据集 2.2 上完成了该流程的实验。最终结果显示,在 (2) 阶段被淘汰的作品共有 895 个,进入复审阶段的作品与原有方案的重合度为 100%。不改变现有结果的基础上,评委的评阅工作量相较于原有方案减少了 17.77%.
关键词:多目标规划;相关性分析;集成优化;排名方案评估
1.