阅读模式的统计分析与实验研究
1. 阅读时间的统计分析
阅读过程可被看作由多个不同的子过程组成,每个子过程可称为一种阅读模式。以往仅依据阅读时间差异来推断阅读模式的方法存在局限性,因为阅读时间受频率、熟悉度和单词长度等多种因素影响。因此,需要一种新的阅读时间分析技术。
新的分析技术基于处理时间的统计理论,该理论认为可通过处理时间的统计分布来检测多种不同的处理模式。具体如下:
- 若阅读过程由 n 个具有相同恒定处理速率的子过程组成,即所有子过程完成后阅读才结束,那么阅读时间服从形状参数为 n 的伽马分布。
- 若阅读过程由一个处理速率为 tk(tk 是处理时间 t 的函数)的子过程组成,即至少一个子过程完成后阅读结束,那么阅读时间服从形状参数为 k 的威布尔分布。
- 当伽马分布中 n = 1 或威布尔分布中 k = 1 时,得到指数分布。这表明处理时间的分布类型与子过程数量之间存在统计关系。
这种统计分析具有优势,它能区分平均速度相同但子过程数量不同的阅读过程,也能区分子过程数量相同但平均速度不同的阅读过程。根据阅读时间数据集的分布情况,若各观测值基本服从相同分布,则表明存在单一阅读模式;若数据集由多种分布混合抽样生成,则表明存在多种阅读模式。
2. 研究方法
阅读时人们还会进行眼动、姿势管理等其他活动。若阅读投入度低而更关注其他活动,可能会在统计分析中出现虚假的阅读模式。因此,需要一个独立于阅读时间的阅读投入度衡量指标,通过分析其与统计分析结果的相关性来验证结果的准确性。
由于分析技术基于统计,需要较大的数据集才能得出有意义的结果。所以实验采用完整的散文叙事文本。