3、数据工程:从数据获取到洞察发现

数据工程:从数据获取到洞察发现

1. 数据工程概述

数据工程在项目启动后发挥着关键作用,其主要任务是构建必要的基础设施,以实现数据的获取(识别、检索和查询)、整理、探索和持久化,为后续的数据分析任务奠定基础。与数据科学过程的后期阶段相比,数据工程需要不同的专业知识,它更侧重于工艺,为后续阶段提供必要的输入。

在数据工程中,常常需要协调不同的技术,以处理数据通信协议和格式、进行探索性可视化以及对数据进行预处理(清理、集成和打包)、缩放和转换。所有这些任务都必须在项目的全局愿景和使命的背景下进行,并且依赖于领域知识。

值得注意的是,原始数据很少能直接用于分析,即使是干净的数据集,也往往需要进行简化。因此,降维和特征选择(删除、添加和组合)也是数据工程的一部分。

数据工程师还需要关注数据收集方法。很多时候,人们往往只关注数据表示,而忽略了数据收集的重要性。实际上,改变原始数据格式相对容易,但改变数据收集方式则需要重新进行整个数据采集工作。例如,如果收到的调查结果是 Excel 文件,将其转换并保存到关系数据库中是很容易的;但如果调查参与者的选择不谨慎,那么输入的数据可能会存在偏差,这种偏差无法通过工具或程序来纠正。

2. 案例研究:电子商务客户细分

2.1 数据集介绍

本案例研究使用了一个免费的小型数据集,该数据集包含 2012 年 5 月《纽约时报》主页上展示的广告和记录的点击量的模拟观察数据。数据集由 31 个 CSV 文件组成,每天一个文件,文件名格式为 nyt

.csv,其中 DD 表示月份中的日期。每个文件的每一行代表一个用户,跟踪的特征包括年龄、性别(0 表示女性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值