航班数据处理与事件流模拟:从本地到云端的全流程实践
1. 运行初始代码
可以通过命令行运行位于 04_streaming/simulate/df01.py 的 Python 程序。具体操作步骤如下:
1. 安装 Cloud Dataflow 包(Cloud Dataflow 是 Apache Beam 的执行环境)。
2. 进入包含代码仓库的目录,执行以下命令:
cd 04_streaming/simulate
./install_packages.sh
python ./df01.py
运行上述代码后,会在 Google Cloud Platform 上使用 Cloud Dataflow 服务运行 df01.py 中的代码,将数据管道部署到云端的多个工作节点上。输出文件的名称以 “extracted_airports” 开头,例如 “extracted_airports-00000-of-00014”,文件内容示例如下:
1000101,58.10944444,-152.90666667
1000301,65.54805556,-161.07166667
这些列分别代表 AIRPORT_SEQ_ID、LATITUDE、LONGITUDE,行的顺序取决于哪个并行工作节点先完成,因此可能会有所不同。
2. 添加时区信息
为了确定经纬度对应的时区,对代码进行修改。
航班数据流处理与云模拟
超级会员免费看
订阅专栏 解锁全文
1271

被折叠的 条评论
为什么被折叠?



