特征工程基础设施:构建与应用全解析
1. 特征定义与规范
1.1 SQL 特征转换示例
在特征工程中,SQL 常被用于表达特征转换逻辑。以 DoorDash 的实时特征聚合为例:
source:
- type: kafka
kafka:
cluster: ${ENVIRONMENT}
topic: store_events
schema:
proto-class: "com.doordash.timeline_events.StoreEvent"
sinks:
- name: feature-store-${ENVIRONMENT}
redis-ttl: 1800
compute:
sql: >-
SELECT
store_id as st,
COUNT(*) as saf_sp_p30mi_order_count_avg
FROM store_events
WHERE has_order_confirmation_data
GROUP BY
HOP(_time, INTERVAL '1' MINUTES, INTERVAL '30' MINUTES),
store_id
不过,SQL 存在多种方言,不同计算引擎支持的方言也有所不同。对于内部解决方案,这可能不是大问题;但对于商业解决方案,基于 API 的选项更具前瞻性。
1.2 Python 特征定义示例
Python 是数据科学的通用语言,许多开源和
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



