数据工程入门:概念、工具与实践
1. 数据工程概述
数据工程是大数据生态系统的一部分,与数据科学密切相关。数据工程师在幕后工作,虽不如数据科学家受关注,但对数据科学过程至关重要。其角色和职责因组织的数据成熟度和人员配置水平而异,但提取、加载和转换数据等任务是数据工程师角色的基础。
数据工程的基本定义是将数据从一个系统或格式移动到另一个系统或格式,通常简称为 ETL(Extract, Transform, Load)。例如,一个在线零售商的网站由关系数据库支持,每笔交易都存储在数据库中。当网站规模较小时,通过 SQL 查询数据库就能回答诸如“上一季度销售了多少蓝色小部件”的问题。但随着网站发展,在生产数据库上运行查询变得不切实际,且可能存在多个记录交易的数据库,分布在不同地理位置。此时就需要数据工程师创建与各地区事务数据库的连接,提取数据并加载到数据仓库中。
公司更关心的问题如“哪些地区销售的小部件最多”“销售小部件的高峰时间是什么时候”等,不仅需要提取和加载数据,还需要在两者之间进行转换。例如,不同地区存在时区差异,需要将时间字段转换为标准格式(如 ISO 8601),并添加位置字段以区分各地区的销售情况。
数据工程师完成这些任务的方式是创建数据管道。数据以原始或“脏”的形式进入管道,在流动过程中进行清理,最终进入数据仓库供查询。以下是完成任务所需的管道流程:
graph LR
A[各数据库] --> B[提取数据]
B --> C[添加位置字段]
C --> D[转换日期为 ISO 8601]
D --> E[加载到数据
超级会员免费看
订阅专栏 解锁全文
19万+

被折叠的 条评论
为什么被折叠?



