2、数据工程入门:概念、工具与实践

数据工程入门:概念、工具与实践

1. 数据工程概述

数据工程是大数据生态系统的一部分,与数据科学密切相关。数据工程师在幕后工作,虽不如数据科学家受关注,但对数据科学过程至关重要。其角色和职责因组织的数据成熟度和人员配置水平而异,但提取、加载和转换数据等任务是数据工程师角色的基础。

数据工程的基本定义是将数据从一个系统或格式移动到另一个系统或格式,通常简称为 ETL(Extract, Transform, Load)。例如,一个在线零售商的网站由关系数据库支持,每笔交易都存储在数据库中。当网站规模较小时,通过 SQL 查询数据库就能回答诸如“上一季度销售了多少蓝色小部件”的问题。但随着网站发展,在生产数据库上运行查询变得不切实际,且可能存在多个记录交易的数据库,分布在不同地理位置。此时就需要数据工程师创建与各地区事务数据库的连接,提取数据并加载到数据仓库中。

公司更关心的问题如“哪些地区销售的小部件最多”“销售小部件的高峰时间是什么时候”等,不仅需要提取和加载数据,还需要在两者之间进行转换。例如,不同地区存在时区差异,需要将时间字段转换为标准格式(如 ISO 8601),并添加位置字段以区分各地区的销售情况。

数据工程师完成这些任务的方式是创建数据管道。数据以原始或“脏”的形式进入管道,在流动过程中进行清理,最终进入数据仓库供查询。以下是完成任务所需的管道流程:

graph LR
    A[各数据库] --> B[提取数据]
    B --> C[添加位置字段]
    C --> D[转换日期为 ISO 8601]
    D --> E[加载到数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值