数据导入调度:方法与工具详解
1. 数据存储类型回顾与调度需求
在处理数据时,有三种主要的数据存储类型:用于结构化 SQL 数据的 BigQuery、用于 NoSQL 数据的 Firestore,以及用于非结构化原始数据的 GCS。接下来,我们将探讨如何定期处理这些数据,重点关注数据流动的调度和流式传输技术,首先从常见的调度流开始。
2. 数据导入类型:流式与批量调度
在设计数据应用系统时,常常需要在流式数据和批量数据之间做出选择,下面是它们的特点及优缺点对比:
| 类型 | 特点 | 优点 | 缺点 |
| — | — | — | — |
| 批量数据流动 | 按较慢的时间间隔(如每日或每小时)定期调度,每次作业导入较大的数据量 | 对于大多数用例来说足够,成本低且易于运行;若更新数据本身也是批量的,下游数据无需实时更新 | 若无法依赖定时更新,工作流可能会崩溃;需要为导入失败创建备用选项 |
| 流式数据流动 | 使用基于事件的小数据包,持续更新,更接近实时 | 即使不需要实时数据,也具有一定优势;可以更灵活地控制数据流动时间 | 运行成本较高;数据工程师需要不同的技能水平来开发和排查流式管道问题 |
3. 批量数据流动
批量导入是导入数据流最常见和传统的方式。在创建用例时,关键问题是确定对数据更新速度的需求。实际上,每小时甚至每天的更新与实时更新相比,效果差异可能并不明显,而且这种更新方式成本更低、更容易运行。但如果不能依赖定时更新,批量数据工作流可能会出现问题,因此需要为导入失败设计备用方案。
4. 流式数据流动
在现代数据栈中,借助新技术,
超级会员免费看
订阅专栏 解锁全文
1142

被折叠的 条评论
为什么被折叠?



