1.背景介绍
大数据领域的蓬勃发展给各行各业带来了巨大的商机,让人们从繁杂的数据海洋中捕捉到有价值的有用信息,并通过分析这些信息帮助企业更好地进行决策,提高效率、降低成本。如何让数据的价值最大化,成为众多公司面临的共同难题?作为一个具备扎实数据结构和分析能力的数据分析师和开发工程师,掌握大数据架构设计的技能,能够支撑起复杂、海量数据处理的需求。那么,作为一个数据分析师或者架构师,除了掌握基础的计算机知识之外,还需要学习什么知识呢?这里,就让我们一起了解一下大数据架构师必知必会系列中的数据探索与发现吧!
2.核心概念与联系 数据探索与发现(Data Exploration and Discovery)是指利用数据采集、存储、管理、计算和呈现的方式对原始数据进行整理、汇总、分析、挖掘、关联等,使之形成可视化信息或形式化知识的一系列工作,从而推动数据科学研究、应用及决策的发展。一般来说,数据探索与发现分为三个阶段:数据获取、数据处理、数据展示和分析。
- 数据获取:数据收集阶段,包括数据源的定义、采集工具的选择、数据采集方式的选择以及数据导入的方法等。
- 数据处理:数据清洗阶段,包括数据规范化、缺失值处理、异常值检测、冗余数据删除、有效数据抽取、特征选择等。
- 数据展示和分析:数据可视化阶段,包括数据的结构分析、分布分析、关系分析等,采用图表、报告等形式将数据呈现给用户。
其中,数据获取可以分为以下几个子阶段:
- 数据源定义:定义数据的来源,包括业务数据、日志数据、物联网传感器数据、客户行为数据等。
- 数据采集工具选择:根据数据源不同,选择合适的数据采集工具,如文件导入工具、数据仓