数据工程与人工智能:从数据处理到机器学习
1. 数据工程中的数据管道架构
1.1 ELT(Extract - Load - Transform)
ELT 是一种较新的数据管道架构形式。在这种架构中,数据首先从数据源中提取出来,以原始形式存储(加载)到暂存数据存储中,如数据湖。如果数据不是非结构化的,也可以使用数据仓库。然后,根据需要利用查询引擎对这些数据进行转换,以创建数据仓库、驱动仪表盘、生成报告或为机器学习任务获取数据。
ELT 的操作步骤如下:
1. 数据提取:从各种数据源中获取数据。
2. 数据加载:将提取的原始数据存储到暂存数据存储(如数据湖)中。
3. 数据转换:根据需求,使用查询引擎对暂存数据存储中的数据进行转换。
这种架构常用于处理来自多个异构数据源的非结构化、半结构化或结构化数据。由于大数据量的处理需求,且无需在提取阶段进行转换(转换需要计算资源),ELT 能够比 ETL 更快地摄取数据。此外,当我们不确定未来机器学习任务或其他临时分析需要哪些数据时,使用 ELT 可以避免在目标需求变化时重新从数据源提取数据。
1.2 EtLT(Extract - Transform - Load - Transform)
EtLT 是 ETL 和 ELT 的混合架构,分两个阶段工作:
1. 第一阶段 :从数据源提取数据,并进行简单的转换,如屏蔽个人身份信息(PII)、数据清洗等。然后将数据加载到暂存数据存储(如数据仓库)中。
2. 第二阶段 :执行复杂的转换,如连接、聚合、数据重塑等,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



