数据分析:
经常使用包:
numpy,matplotlib,scipy.org ,leain , pandas,
Anaconda
流程:
1获取数据 ---->2探索分析可视化 ----->3预处理 ------>4分析建模 ----->5建模评估
学习网址:
数据竞赛网站:kaggle
数据集网站:ImageNet/Open Images
各领域统计数据:统计局、政府机构、公司财报等
2探索分析可视化
(1)单因子探索分析与可视化
导入模块:
import pandas as pd
(2)分布分析
1.直接获得概率分布
2.是不是正太分布
3.极大似然 == 及其相似
3.mapreduce框架
https://blog.youkuaiyun.com/burpee/article/details/78769161
4.yarn
1.从架构:主节点和从节点
2.任务调度
>>yarn 运行多个程序
>>应用程序运行所需要资源
>>资源的分配
>>yarn任务调度