1. 什么是数据分析?
数据分析有三个重要的组成:
- 数据采集:可粗略的理解为爬虫等
- 数据挖掘:算法相关,挖掘出数据中的有用信息
- 数据可视化:全方位展示数据的形态
数据分析的过程,其实就跟认识一个人一样:你得先把他从人群中找出来,然后分析他,最后头脑中就有了了他的具体形象。
这其中,最重要的就是数据挖掘。
至于这三个步骤都有哪些具体的法方法,以后再慢慢总结。
2. 如何"学习"

- 如何提升自己的学习吸收能力:“知行合一”
- 如何快速进步:熟练度
3. 核心:数据挖掘
数据挖掘的基本流程:
- 商业理解:我们的目的是更好地帮助业务
- 数据理解:初步的探索性分析
- 数据准备:数据清洗
- 模型建立:应用数据挖掘模型
- 模型评估:确认模型是否实现了预订的商业目标
- 上线发布:将获得的数据 “知识”转化为用户可以使用的方式
数据挖掘的十大算法
在众多的数据挖掘模型中,国际权威的学术组织ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。
可以按照不同目的,将算法分为四大类:
- 分类算法:
- C4.5:决策树、分类、剪枝
- 朴素贝叶斯:概率论
- SVM:超平面
- KNN:最近邻
- Adaboost:集成算法
- CART:决策树、分类和回归
- 聚类算法:
- K-means:聚类
- EM:最大期望算法、最大似然估计
- 关联分析:Apriori
理解:直观理解关联规则之Apriori算法 - 连接分析:
- PageRank
本文介绍了数据分析的三个关键步骤:数据采集、数据挖掘和数据可视化,并强调了数据挖掘的重要性。学习数据分析需要注重实践与理论的结合,提升学习吸收能力和熟练度。数据挖掘流程包括商业理解、数据理解、数据准备、模型建立、模型评估和上线发布。文章还提及了数据挖掘的十大经典算法,如C4.5、朴素贝叶斯、SVM和K-means等。
1万+

被折叠的 条评论
为什么被折叠?



