数据处理与隐私保护:实时流与安全存储方案
1. 调度工具选择
在数据处理中,有不同的调度工具可供选择。基于事件且可按计划触发的方式通常是首选,但它不支持需要回填和重试的流程。而 Cloud Composer 是一个综合的调度工具,具备回填功能,支持复杂工作流以及重试和服务级别协议(SLA)特性,不过它的使用成本最高且操作复杂。
2. 实时数据流与工具
对于一些工作流来说,批量调度可能不够。如果需要在半小时内实现响应式数据更新,就需要考虑实时数据流选项。不过,实时数据流会带来更高的成本和复杂性。
2.1 Pub/Sub 用于流式数据
Pub/Sub 主要用于处理高容量数据流。它采用“至少一次”的交付系统,即使处理数 TB 的数据,也能构建可靠的数据流。通常,Pub/Sub 作为其他流系统(如 Kafka 或本地系统)发送数据的入口点。内部应用开发人员会设置实时摄取流,之后将其接入 Google Cloud Platform。当数据流入 Pub/Sub 主题后,可通过 Apache Beam 或 Google 托管的 Dataflow 将数据流式传输到 Cloud Storage 和 BigQuery 等下游。
2.2 Apache Beam / DataFlow
在 Google Cloud Platform(GCP)中,Dataflow 是流式数据的首选服务。它运行基于 Apache Beam 编写的作业,Apache Beam 最初由 Google 开发,现在是开源的,也可用于其他云平台。
Apache Beam 通过创建安装了该库的虚拟机(VM)来处理流入的数据。它
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



