数据处理与插补:从房产数据到氪石实验
1. 费城房产数据处理
在处理数据时,我们常常会遇到各种问题,比如数据缺失、数据格式不规范等。以费城的房产数据为例,我们可以看到数据处理和插补的重要性。
1.1 数据获取与初步观察
费城提供了一个名为 OpenDataPhilly 的开放数据资源,我们获取了关于房产税收评估市场价值的数据集。通过 SQL 查询从 HTTPS 接口获取 JSON 结果,查询语句如下:
SELECT parcel_number, year, market_value FROM assessments
这里的“parcel”指的是在同一契约下的房产。完整数据存储在 philly_house.json 中,而我们使用的带有缺失值的版本存储在 philly_missing.json 中,大约 5% 的市场价值被替换为 NaN。
下面是数据集的一个示例:
| parcel_number | year | market_value |
| — | — | — |
| 123018500.0 | 2014 | 96100.0 |
| 888301242.0 | 2015 | 15000.0 |
| NaN | 2018 | 0.0 |
| 311033500.0 | 2018 | 16500.0 |
| 888301508.0 | 2015 | 15000.0 |
| 252327300.0 |
超级会员免费看
订阅专栏 解锁全文
4006

被折叠的 条评论
为什么被折叠?



