数据处理与可视化:缺失值插补、网页数据解析及群组平衡
1. 数据缺失值情况概述
在数据集中,我们可以看到一些关于数据状态的基本统计信息:
|状态|数量|
| ---- | ---- |
|FALSE|28|
|TRUE|18|
|NA’s|0|
还有一些变量的基本统计描述,例如:
|变量|最小值|第一四分位数|中位数|均值|第三四分位数|最大值|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|id|1.00|12.25|23.50|23.50|34.75|46.00|
|age|16.00|23.00|33.00|36.89|47.25|83.00|
性别分布为女性 9 人,男性 37 人。伤害机制包括 Bike_vs_Auto(4 例)、Blunt(4 例)、Fall(13 例)、GSW(2 例)、MCA(7 例)、MVA(10 例)、Peds_vs_Auto(6 例)等。
2. 缺失数据类型
2.1 完全随机缺失(MCAR)
数据完全随机缺失意味着缺失的观测没有系统性规律,缺失情况与观测到的或未观测到的协变量都没有关系。
2.2 随机缺失(MAR)
随机缺失比完全随机缺失的条件稍弱。缺失仍然是随机的,但仅由观测到的变量引起。例如,社会经济地位较低的人可能不太愿意提供薪资信息,但我们知道他们的社会经济地位。关键在于缺失不是由于未观测到的值导致的。完全随机缺失意味着随机缺失,但反之不成立。
超级会员免费看
订阅专栏 解锁全文
692

被折叠的 条评论
为什么被折叠?



