数据建模与准备:FAA野生动物撞击数据的分析与处理
1. 初步数据模型设计
在处理FAA野生动物撞击数据时,有几种不同的数据模型设计可供选择,每种都有其优缺点。
1.1 扁平化数据表
扁平化数据表将多个表合并为一个单一的表。其优点和缺点如下:
| 优点 | 缺点 |
| — | — |
| 简单性 | 没有为业务用户提供关系数据模型 |
| 代码无需连接操作 | 重复数据会导致存储效率低下 |
| 数据科学家常用 | 高级逻辑查询存在限制 |
| 可与列式数据库良好压缩 | 未来解决方案的变更和演进灵活性较低 |
| | 复杂逻辑查询效率较低 |
1.2 星型架构
真正的星型架构会在引擎代码、飞机类型、发动机位置与STRIKE_REPORTS表之间建立关系,并将STRIKE_REPORTS表的部分内容拆分为更小的维度表。其优缺点如下:
| 优点 | 缺点 |
| — | — |
| 表通常与业务逻辑一致 | 与旧工具相比,现代工具减少数据重复的好处影响较小 |
| 平衡了最小的数据重复和高效查询 | ETL过程复杂 |
| 通常在解决方案范围扩大和引入新数据时可扩展 | 机器学习模型通常使用扁平化数据表进行训练 |
| 传统上被认为是BI数据模型的黄金标准 | 对于数十亿行的超大数据量,扩展性不佳 |
1.3 混合设计
对于FAA野生动物撞击数据,结合扁平化设计和星型架构的混合设计也是一种选择。由于数据量较小(STRIKE_REPORTS表少于300,000行且
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



