一、数据分析的那些事
二、数据分析的四个层级
三、认识数据
四、数据的质量分析
五、数据的分布分析
5.1、定量数据的分布分析方法
5.1.1、目的:
5.1.2、方法:
5.2、定性数据的分布分析方法
5.2.1、目的:寻找不同类别对象间的区别,或者对不同类别的对象做不同的处理,确定需要重点关注的对象。
5.2.2、方法:占比分析、贡献度分析
5.3、定时数据的分布分析方法
5.3.1、目的:寻找事件发生结果随时间变化的规律
5.3.2、方法:周期性分析、时间序列分析
六、描述性分析方法
6.1、方法、步骤
6.1、目的:描述现实、发现问题
6.2、方法:全链路分析方法
6.3、步骤:(7步):确定描述对象、明确业务目标,熟悉业务逻辑、分割业务环节,确定关键节点、利益关系人际关系人的关注点、确定可以描述分析对象的指标、确定指标的评价标准、数据的展示
6.4、核心:通过描述性分析,可以对任何业务进行分析,快速实现描述现实,发现问题的目的。
七、诊断性分析方法
7.1、目的:解决问题、发现机会
7.2、方法:公式法
7.3、步骤:(6步)确定问题的描述指标,以及指标的统计逻辑、确定指标的类别,是基础指标还是复合指标、对复合指标进行分解,分解到基础指标、对指标的描述对象进行分解,分解到基础对象、通过业务逻辑解释基础对象产生基础指标的原因、根据分析原因制定解决方案
7.4、核心:通过诊断性分析,寻找引起最终结果的原因和可以改变未来的结果的方法。
八、预测性分析方法
8.1、分类分析
8.1.1、对于已经分好类的问题,采用机器学习的方法,决策树算法
8.1.2、步骤:(5步)选择对象的一个特征,并根据这一特征对训练集进行分类、计算某特征分类后分类结果的混乱程度、以混乱程度最低为原则,确定最佳节点、删除不必要的节点、生成模型进行预测
8.2、聚类分析
8.2.1、目的:对数据进行分类。仅依据数据中发现的描述对象的特征,将数据进行分组,其目标是,组内的对象相互间是相似的,而不同组之间的对象是不同的。
8.2.2、常用算法:K-means、K-中心点、多层次聚类
8.3、关联分析
8.3.1、目的:发现隐藏在大型数据集下有意义的联系。
8.3.2、步骤:支持度计数、计算支持度、置信度计数、计算置信度、确定频繁项集
8.3.3、常用算法:APriori、FP-Tree
8.3.4、APriori算法
8.3.4.1、核心目标:降低产生频繁项集的复杂度
8.3.4.2、步骤:寻找频繁项集、计算置信度
8.4、离群点检测
8.4.1、目的:发现与其大部分不同的对象
8.4.2、方法:基于统计、基于邻近度、基于密度
8.4.2.1、基于邻近度的步骤
8.4.2.2、基于密度的步骤
九、决策性分析方法
9.1、目的:增加收入、降低成本、提升效率、控制风险
9.2、方法和步骤
9.3、决策系统设计的步骤
十、数据分析思维模型