实时数据处理与流模拟:构建实时分析系统
在当今数字化时代,实时数据处理和分析变得越来越重要。本文将介绍如何生成事件流并实时发布这些事件,以及如何构建实时仪表盘进行实时分析。
1. 模拟数据生成与发布
当脚本处理完所有记录后,可能会出现超时错误,此时需要手动重启脚本。为了快速实验流数据,我们编写的模拟代码目前不具备容错能力。若要实现容错,可从一个受时间范围限制的 BigQuery 查询开始,该时间范围的起始点可从 Cloud Pub/Sub 中最后通知的记录自动推断。
1.1 获取要发布的记录
通过 Google Cloud API for Python 调用 BigQuery 查询,代码如下:
bqclient = bq.Client()
dataset = bqclient.dataset('flights')
if not dataset.exists():
logging.error('Did not find a dataset named <flights> in your project')
exit(-1)
# run the query to pull simulated events
querystr = """\
SELECT
EVENT,
NOTIFY_TIME,
EVENT_DATA
FROM
`cloud-training-demos.flights.simevents`
WHERE
NOTIFY_TIME >= TIMESTAMP('{}')
AND NOTIFY_TIME < TI
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



