一、什么是数据分析
专业的解释:有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。
从行业的角度:数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。
数据分析立足于三点:一是目的,要有针对性;二是方法,统计基础和数据挖掘;三是结果,要达到最初的目的并有较好的应用。
二、数据分析六部曲
数据分析的过程主要包括:明确分析目的和内容、数据收集、数据处理、数据分析、数据展现和报告撰写等六个步骤。
2.1 明确分析目的和内容
在进行数据分析之前,数据分析师应对需要分析的项目进行一个详细的了解,或者自己本身就对此分析项目所涉及的行业有比较深刻的了解,对其内部的运行规律即使做不到了如指掌,至少也要有一个整体框架上的了解。数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?数据分析师对这些都要了然于心。对数据分析目的的把握,是数据分析项目成败的关键。只有对数据分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因为根据不同的数据分析目的所选择的数据分析方法是不同的。
2.2 数据收集
当我们根据分析的目的,选定了相应的设计框架之后,一个重要的问题就出现了,如何能准确有效地收集数据,从而客观全面地反映所要研究的问题的真实状况。数据收集是一个按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。通常数据收集的方法包括观察法、访谈法、问卷法、测验法等。
2.3 数据预处理
数据预处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四个步骤。
第一步:数据审查
该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
第二步:数据清理
该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,使得后续的数据分析得出可靠的结论。当然,数据清理还包