弹性的实证评估:从数据特征到弹性设计
1. 基本数据特征
在数据分析中,边际分布发现能让我们对单个变量的特征有初步了解。这包括变量是否包含“NA”(缺失)值、遵循何种分布以及四分位数的取值。根据经验,这一步对于理解和验证数据至关重要,有助于发现属性记录值与其理论域之间的不一致性。例如,曾发现一些小错误并反馈给相关人员。
2. 基本定性抽象
对于弹性评估,边际分布分析的另一个目标是对“目标”变量(这里是 RT)进行初步的定性离散化。RT 的箱线图显示存在显著的离群值(有些甚至超过 50 秒),这些离群值在视觉上掩盖了非离群值。对箱线图进行放大处理,移除超过 20 秒的点(19 个观测值)后,得到新的箱线图。从这个过滤后的箱线图可以看出,大部分观测值(约 92%)大致在 [500 毫秒, 3000 毫秒] 区间内;另一组(约 7%)似乎紧密聚集在大约 [3000 毫秒, 8500 毫秒] 区间;还有少量更高值的点(0.4%)。这种基于基本统计属性的分类从工程角度来看也是可以接受的。
虽然箱线图是一种紧凑高效的工具,但检查变量的直方图也很有用。基于直方图,我们将区间细化为 [0, 5000]、[5000, 7500] 和 (7500, ∞],从统计和工程角度来看,这是更自然的量化方式。根据合理的工程解释,我们将这些区间分别称为服务的“正常”、“有问题”和“故障”域。在后续讨论中,“正常域”指的是“正常”和“有问题”域的并集。
以下是这些区间的总结表格:
| 区间 | 类别 |
| ---- | ---- |
| [0, 5000] | 正常 |
| [5000, 7500] | 有问题 |
|
超级会员免费看
订阅专栏 解锁全文
1071

被折叠的 条评论
为什么被折叠?



