明确目的
一切数据分析都是以业务为核心目的,而不是以数据为目的。
这些数据用来解决什么问题?将要以什么样的方式呈现?是验证某一假设?是希望提高某一个指标?
设立一个简单的目标,例如计算业务的平均值。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。想一下自己会怎么运用数据。
观察数据
先看一下columns的含义。
首先看一下哪些字段数据可以去除。(尽量不删除数据,而是隐藏,保证原始数据的完整性。)
接下来进行数据清洗和转换。
看看数据有无缺失值,数据的缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(比如超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。(Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失。)
数据是否一致化,一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。这就需要手动清洗。
数据是否有脏数据,脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。
有没有重复数据,使用Excel的删除重复项功能,快速定位是否有重复数据。
将特殊结构的数据进行转换和规整为数据标准结构。
数据清洗
数据清洗可以新建Sheet,方便和原始数据区分开来。
我们检查一下有没有错误,利用筛选功能快速定位。
分析过程
因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。
整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计。