数据分析过程

明确目的

一切数据分析都是以业务为核心目的,而不是以数据为目的。

这些数据用来解决什么问题?将要以什么样的方式呈现?是验证某一假设?是希望提高某一个指标?

设立一个简单的目标,例如计算业务的平均值。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。想一下自己会怎么运用数据。

观察数据

先看一下columns的含义。
首先看一下哪些字段数据可以去除。(尽量不删除数据,而是隐藏,保证原始数据的完整性。)
接下来进行数据清洗和转换。
看看数据有无缺失值,数据的缺失值很大程度上影响分析结果。如果某一字段缺失数据较多(比如超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。(Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失。)
数据是否一致化,一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。这就需要手动清洗。
数据是否有脏数据,脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。
有没有重复数据,使用Excel的删除重复项功能,快速定位是否有重复数据。
将特殊结构的数据进行转换和规整为数据标准结构。

数据清洗

数据清洗可以新建Sheet,方便和原始数据区分开来。

我们检查一下有没有错误,利用筛选功能快速定位。

分析过程

因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。

整体分析使用数据透视表完成,先利用数据透视表获得汇总型统计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值