数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。
利用了如下领域的思想:
1)来自统计学的抽样,估计和假设检验
2)人工智能,模式识别和机器学习的搜索算法,建模技术和学习理论
3)最优化,进化计算,信息论,信号处理,可视化和信息检索
4)数据库技术,并行计算,分布式计算
涉及到的数学原理:概率论与数理统计,线性代数,图论,最优化方法
主要为了解决两大问题:
1)预测任务:根据其他属性的值,预测特定属性的值
2)描述任务 导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常),通常,描述性数据挖掘任务是探查性的,需要后处理技术验证和解释结果。
主要分为四大任务:
1,预测建模 a,分类:用于预测离散的目标变量
B,回归:用于预测连续的目标变量
2,关联分析:用来发现描述数据中强关联特征的模式,,目标是以有效的方式提取最有趣的模式。如购物篮分析
3,聚类分析:分析紧密相关的观测值组群,使得与属于不同簇的观测值相比,同一簇的观测值之间尽可能类似。顾客分组
4,异常检测:识别特征明显不同于其他数据的观测值,统称为异常点(anomaly),离群点(outlier)
十大经典算法:
分类算法:c4.5(决策树),朴素贝叶斯(naive bayes),svm,knn,adaboost,cart
聚类算法:k-means(k-均值聚类),EM
关联分析:apriori
连接分析:pagerank
C4.5:决策树算法,在决策树构造过程中

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



