评估众包与主题建模在生成知识组件中的应用
1. 实验概述
本研究开展了数学和写作两个实验,邀请参与者对两个问题的相对难度提供解释。在数学实验中,有 40 名参与者,每人提供 3 条解释,共 120 条;写作实验有 30 名参与者,同样每人 3 条解释,共 90 条,总计 210 条解释。
2. 解释分类
- 编码手册制定 :研究人员依据试点研究数据,为数学和写作实验分别制定编码手册。先将参与者的解释按含义分配到一组代码中,再不断迭代完善,直至达成代码共识。之后由两名研究助理将编码手册应用于试点数据,并讨论差异,明确不熟悉的代码。
- 代码一致性测量 :通过评分者间信度(IRR)测量代码一致性,数学实验的 Cohen’s kappa κ = 0.813,写作实验的 κ = 0.839,表明一致性较高。
实验类型 | 代码 | 定义 | 示例解释 |
---|---|---|---|
数学实验 | 计算 | 提及问题中的计算方面,如减法或面积使用 | “因为他们不知道如何计算面积” |
数学实验 | 清晰度 - 形状 | 与对所描绘形状的理解有关 | “由于阴影,可 |