数据工程:从数据获取到洞察发现
1. 数据工程概述
数据工程在项目启动后发挥着关键作用,其主要任务是构建必要的基础设施,以实现数据的获取(识别、检索和查询)、整理、探索和持久化,为后续的数据分析任务奠定基础。与数据科学过程的后期阶段相比,数据工程需要不同的专业知识,它更侧重于工艺,为后续阶段提供必要的输入。
在数据工程中,常常需要协调不同的技术,以处理数据通信协议和格式、进行探索性可视化以及对数据进行预处理(清理、集成和打包)、缩放和转换。所有这些任务都必须在项目的全局愿景和使命的背景下进行,并且依赖于领域知识。
值得注意的是,原始数据很少能直接用于分析,即使是干净的数据集,也往往需要进行简化。因此,降维和特征选择(删除、添加和组合)也是数据工程的一部分。
数据工程师还需要关注数据收集方法。很多时候,人们往往只关注数据表示,而忽略了数据收集的重要性。实际上,改变原始数据格式相对容易,但改变数据收集方式则需要重新进行整个数据采集工作。例如,如果收到的调查结果是 Excel 文件,将其转换并保存到关系数据库中是很容易的;但如果调查参与者的选择不谨慎,那么输入的数据可能会存在偏差,这种偏差无法通过工具或程序来纠正。
2. 案例研究:电子商务客户细分
2.1 数据集介绍
本案例研究使用了一个免费的小型数据集,该数据集包含 2012 年 5 月《纽约时报》主页上展示的广告和记录的点击量的模拟观察数据。数据集由 31 个 CSV 文件组成,每天一个文件,文件名格式为 nyt