探索互动科学博物馆游客参与度及自动简答题评分系统漏洞研究
互动科学博物馆游客停留时间建模
在互动科学博物馆的研究中,为了理解游客的参与度,我们对游客的停留时间进行建模。基础线性回归公式如下:
[Y_i \sim Normal(\mu_i, \sigma^2), \text{ 其中 } \log(\mu_i) = \alpha + \sum_{k=1}^{p} X_{ik}\beta_k]
这里,(Y_i) 是游客 (i) 的停留时间,(\alpha) 是回归中添加到所有预测的固定截距,(X_{ik}) 是学生 (i) 的输入特征 (k) 的值,(\beta_k) 是特征 (k) 的系数,(p) 是特征总数(共 17 个),(\sigma^2) 是用于所有预测的固定方差。由于使用正态分布,预测可能为负,但停留时间不能为负,所以在将特征和系数的线性组合用作正态分布的均值之前,我们对其进行指数运算。
基线模型
- 合并模型(Pooled Model) :将所有游客数据分组在一起并同等对待。这种模型会丢失各个组的信息,无法刻画游客兴趣、背景或人口统计学方面基于组的差异,可能导致数据欠拟合。
- 特定组模型(Group - Specific model) :为每个游客组分别训练一个线性模型。每个游客组都有自己独特的一组模型参数,但由于每组数据样本有限以及游客组之间的固有差异,这种方法存在过拟合数据的风险,并且不太可能有效地进行泛化。
贝叶斯分层模型
标准线性回归公式假设所有游客观测值的残差方差相同,但在博