数据分析一般包括3部分:
- 数据采集
- 数据挖掘,数据挖掘包括对数据的处理,特征工程,运用模型算法,挖掘出数据中的商业价值
- 数据可视化
一、数据采集
数据采集可以使用工具如八爪鱼,或者使用Python编写爬虫程序
二、数据挖掘
基本流程:
商业理解、数据理解、数据准备、模型建立、模型评估、上线发布
十大算法:
分类算法:决策树(C4.5)、朴素贝叶斯、svm、knn、Adaboost、cart
聚类算法:K-Means、EM
关联分析:Apriori
连接分析:PageRank
数据基础:
概率论与数理统计、线性代数、图论、最优化方法
三、数据可视化
使用Python的Matplotlib、Seaborn 等第三方库
使用DataV、微图等第三方工具