机器学习工作流管道:构建可重现的端到端流程
1. 流处理与批量预测
在机器学习中,流处理和批量预测是两个重要的环节。对于平均出发延迟的计算,在推理阶段需要一个流处理管道。例如,定义窗口函数:
WINDOW depart_time_window AS
(PARTITION BY departure_airport ORDER BY
UNIX_SECONDS(TIMESTAMP(scheduled_depart_time))
RANGE BETWEEN 7200 PRECEDING AND 1 PRECEDING)
训练数据集现在将平均延迟作为一个特征,如下表所示:
| Row | arrival_delay | departure_delay | departure_airport | hour_of_day | avg_depart_delay |
| — | — | — | — | — | — |
| 1 | -3.0 | -7.0 | LFT | 8 | -4.0 |
| 2 | 56.0 | 50.0 | LFT | 8 | 41.0 |
| 3 | -14.0 | -9.0 | LFT | 8 | 5.0 |
| 4 | -3.0 | 0.0 | LFT | 8 | -2.0 |
为了减少训练和服务之间的偏差,在流处理管道中最好使用相同的 SQL,而不是将其转换为 Scala、Python 或 Java。
另外,在模型部署在云端,而客户端嵌入设备或本地的情况下,逐个发送
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



