一、数据分析的概念
数据获取→数据清洗→统计分析→可视化→形成结论→验证结论→应用结论

根据这个图可以看下自己在哪方面还有缺腿,想往哪个方向发展。
1数据获取

2数据清洗
- 完整性:通过其他信息、前后数据补全、剔除多余数据
- 唯一性:按主键去重,合并同一主键下的数据
- 权威性:保证原始数据的准确性
- 一致性:建立数据体系,如指标体系、维度、单位、频度、数据格式
- 合法性:设定强制合法规则、字段内容及格式合法规则、离群值人工特殊处理
二、数据可视化的概念和方法
可视化场景:交通数据、地理信息、数量对比、时间序列、多维度展示、统计检验
常用工具:Tableau、DataV、Excel、R/Python
三、数据分析的常用模型
1描述性统计
单变量:均值、方差/标准差、分位点/中位数
多变量:协方差、相关系数
2有监督模型
通过已知目标的样本去研究变量关系,并预测未知目标的样本
回归:目标变量是连续型变量,代表:线性回归
分类:目标变量是离散型变量,代表:SVM、分类树、朴素贝叶斯、logistic regression、kNN
排序:page rank
3无监督模型
通过研究样本数据

本文介绍了数据分析的基本概念,包括数据获取、清洗、统计分析和可视化,并详细阐述了数据清洗的关键点。此外,讨论了数据可视化的场景和常用工具,如Tableau和Python。还提及了数据分析的常用模型,包括描述性统计、有监督和无监督学习。最后,提到了R和Python作为数据分析的重要工具,强调了掌握多种工具的重要性。
最低0.47元/天 解锁文章
5万+

被折叠的 条评论
为什么被折叠?



