一、数据分析的概念
数据获取→数据清洗→统计分析→可视化→形成结论→验证结论→应用结论
根据这个图可以看下自己在哪方面还有缺腿,想往哪个方向发展。
1数据获取
2数据清洗
- 完整性:通过其他信息、前后数据补全、剔除多余数据
- 唯一性:按主键去重,合并同一主键下的数据
- 权威性:保证原始数据的准确性
- 一致性:建立数据体系,如指标体系、维度、单位、频度、数据格式
- 合法性:设定强制合法规则、字段内容及格式合法规则、离群值人工特殊处理
二、数据可视化的概念和方法
可视化场景:交通数据、地理信息、数量对比、时间序列、多维度展示、统计检验
常用工具:Tableau、DataV、Excel、R/Python
三、数据分析的常用模型
1描述性统计
单变量:均值、方差/标准差、分位点/中位数
多变量:协方差、相关系数
2有监督模型
通过已知目标的样本去研究变量关系,并预测未知目标的样本
回归:目标变量是连续型变量,代表:线性回归
分