刘夏璐,狄松. 谁说菜鸟不会数据分析(入门篇)[M]. 电子工业出版社, 2013
文章目录
第一章 数据分析那些事
何谓数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
【因此,数据分析是一个找规律的过程,其实人人都可以用到】
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这里的数据也称观测值,是通过实验、测量、观察、调查等方式获取的结果,常常以数量的形式展现出来。
目的
把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。
探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明。
描述性数据分析属于初级数据分析,常见的分析方法有:对比分析法、平均分析法、交叉分析法等。
探索性数据分析以及验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。
数据分析的作用
数据分析在企业的日常经营分析中的三大作用
1.1 数据分析六部曲
1.1.1 明确分析的目的和思路
在开展数据分析以前,要想想:
为什么要开展数据分析?通过这次数据分析我要解决什么问题?只有明确数据分析的目标,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途。
【个人认为明确目标是最最重要的,很多时候上级交代的任务比较笼统,自己在开始工作前要先明白上级到底想要分析什么,如果这一步没有做好,接下来做的都是无用功】
明确目标后,要梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。
最后还要将分析框架体系化,使分析结果具有说服力。分析体系化,就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。解决的是不知道从哪里入手,分析的内容和指标常常被质疑是否合理、完整,而自己也说不出个所以然来,所以体系化就是为了让你的分析框架具有说服力。
分析体系化的方法
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及正确性。
【个人感觉这些框架还挺有参考意义的,类比的可以构建自己的框架】
营销方面的理论模型:
4P、用户使用行为、STP理论、SWOT等。
管理方面的理论模型:
PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
【敲黑板,重点】
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向
1.1.2 数据收集
数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。
1.1.3 数据处理
数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。
1.1.4 数据分析
数据是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
数据分析与数据挖掘的区别?
数据挖掘是一种高级的数据分析方法。一般来说,数据挖掘侧重解决四类数据分析的问题:分类、聚类、关联和预测,重点在寻找模式与规律。
1.1.5 数据展现
一般情况下,能用图说明问题就不用表格,能用表格说明问题的就不用文字。
【但是有的时候表格的效果比图好,下文会提到,以上原则在大部分情况下是对的,具体问题具体分析】
1.1.6 报告撰写
对整个数据分析过程的一个总结与呈现。
一份好的数据分析报告,首先要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。最后,好的分析报告一定要有建议或解决方案。
1.2 几个常用指标和术语
平均数
算术平均数,一组数据的算术平均值,即全部数据累加后除以数据个数。
它的特点是将总体内各单位的数量差异抽象画,代表总体的一般水平,掩盖了总体内各单位的差异。
绝对数与相对数
绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也可以表现为在一定时间、地点条件下数量增减变化的绝对数。
相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。
【相对数一个优点是没有量纲,方便比较,例如标幺值】
相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程度。使用相对数时要注意指标的可比性,同时要与总量指标(绝对数)结合使用。
常见的相对数:
-
百分比与百分点
百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或者百分数。
百分点是指不同时期以百分数的形式表示的相对指标的变动幅度,一个百分点=1%。 -
频数与频率
频数是指一组数据中个别数据重复出现的次数。
频率是每组类别次数与总次数的比值。,它代表某类别在总体中出现的频繁程度。 -
比例与比率
比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。
比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。例如男女比率。
-
倍数与番数
倍数是一个数除以另一个数所得的商。倍数一般表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。
番数是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍。 -
同比与环比
同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。
环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。
【数据分析学习方法】
第二章 结构为王——确定分析思路
2.1 数据分析方法论
2.2 常用数据分析方法论
2.2.1 PEST分析法
PEST分析法用于对宏观环境的分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。主要分析的影响因素如下图所示:
2.2.2 5W2H分析法
5W2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索。
【写小说也是这个套路】
2.2.3 逻辑树分析法
将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。
逻辑树的作用主要是帮助你理清自己的思路,避免进行重复和无关的思考。它能保证解决问题的过程的完整性,将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。
逻辑树的适用必须遵循以下三个原则:
- 要素化:把相同问题总结归纳成要素
- 框架化:将各个要素组织成框架,遵守不重不漏的原则
- 关联化:框架内的各要素保持必要的相互关系,简单而不孤立。
优点:可以理清思路。
缺点:可能有遗漏。
2.2.4 4P营销理论
营销组合的要素可以概括为4类。
- 产品:从市场营销的角度来看,产品是指能够提供给市场,被人们使用和消费并满足人们某种需要的任何东西,包括有形产品、服务、人员、组织、观念或它们的组合。