数据挖掘基础知识整理

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。

利用了如下领域的思想:

1)来自统计学的抽样,估计和假设检验

2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论

3)最优化,进化计算,信息论,信号处理,可视化和信息检索

4)数据库技术,并行计算,分布式计算

涉及到的数学原理:概率论与数理统计,线性代数,图论,最优化方法

 

 

主要为了解决两大问题:

1)预测任务:根据其他属性的值,预测特定属性的值

2)描述任务 导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),通常,描述性数据挖掘任务是探查性的,需要后处理技术验证和解释结果。

 

主要分为四大任务:

1,预测建模    a,分类:用于预测离散的目标变量

                        B,回归:用于预测连续的目标变量

2,关联分析:用来发现描述数据中强关联特征的模式,,目标是以有效的方式提取最有趣的模式。如购物篮分析

3,聚类分析:分析紧密相关的观测值组群,使得与属于不同簇的观测值相比,同一簇的观测值之间尽可能类似。顾客分组

4,异常检测:识别特征明显不同于其他数据的观测值,统称为异常点(anomaly),离群点(outlier)

 

十大经典算法:

分类算法:c4.5(决策树),朴素贝叶斯(naive bayes),svm,knn,adaboost,cart

聚类算法:k-means(k-均值聚类),EM

关联分析:apriori

连接分析:pagerank

 

C4.5:决策树算法,在决策树构造过程中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值