机器学习中的数据处理与工作流管道设计
在机器学习的实际应用中,数据处理和工作流管理是至关重要的环节。本文将详细介绍数据处理中的平均延迟计算、批量预测请求处理,以及工作流管道设计模式的相关内容。
数据处理:平均延迟计算与批量预测请求
在数据处理阶段,我们可能会遇到需要计算平均延迟的情况。例如,以下SQL查询用于计算航班的平均出发延迟:
SELECT
* EXCEPT(scheduled_depart_time),
EXTRACT(hour from scheduled_depart_time) AS hour_of_day,
AVG(departure_delay) OVER (depart_time_window) AS avg_depart_delay
FROM data
WINDOW depart_time_window AS
(PARTITION BY departure_airport ORDER BY
UNIX_SECONDS(TIMESTAMP(scheduled_depart_time))
RANGE BETWEEN 7200 PRECEDING AND 1 PRECEDING)
这个查询会为训练数据集添加一个新的特征——平均出发延迟。训练数据集的示例如下:
| Row | arrival_delay | departure_delay | departure_airport | hour_of_day | avg_depart_delay |
| — | — | — | — | — | — | <
超级会员免费看
订阅专栏 解锁全文
172万+

被折叠的 条评论
为什么被折叠?



