1 数据分析
1.1 定义
- 用适当的统计分析方法对收集来的大量数据进行分析
- 提取有用信息和形成结论
- 对数据加以详细研究和概括总结
1.2 目的
- 从数据中挖掘规律、验证猜想、进行预测
2 学习数据分析的一般路线
数据科学家之路
1、基础知识:线性代数、基本操作
2、统计知识:概率统计
3、编程能力:python操作
4、机器学习:各种模型
5、自然语言处理:具体应用场景
6、可视化:散点图、柱状图等
7、大数据:进阶
8、数据解析:数据转换、融合、统计
9、数据获取:客户提供,开源数据集
10、常用工具:python库,工具包
3 数据分析的流程
3.1 明确目的
- 为什么要开展数据分析
- 通过数据分析要解决什么问题
- 需要从哪些角度进行分析
- 需要采用哪些分析指标/方法
3.2 数据获取
- 本地数据的采集与操作
- 网络数据的获取与表示
3.3 数据解析
- 把杂侃无章的数据处理成有一定结构、整洁的数据过程,如数据清理
- 工具:numpy、scipy,pandas
3.4 数据分析
- 数据分析工具pandas
- 机器学习模型
3.5 结果呈现
- 数据可视化
4 数据类型
- 数值型:长度、宽度、评分等
分析方法:极值和分位点、均值和标准差,变量间相关性
- 有序型:有限的元素集合:等级(A,B,C),空气质量(优,良,轻度污染等)
- 类别型:没有有序型中的等级关系,性别(男,女),手机品牌
分析方法:统计分析、直方图等
- 噪点数据:缺失值、重复值、无效数据等
分析方法:数据清洗、统计分析等