[转] TEST 数据挖掘知识清单

本文介绍了数据挖掘的基本流程,包括商业理解、数据理解、数据准备、模型建立、模型评估及上线发布等步骤,并概述了常用的分类算法、聚类算法、关联分析等数据挖掘算法。

数据挖掘的基本流程

  1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
  2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
  3. 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
  4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
  5. 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
  6. 上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。

数据挖掘的常用算法

  • 分类算法:C4.5决策树, 朴素贝叶斯(Naive Bayes), SVM(支持向量机), KNN(K最近邻算法), CART决策树, AdaBoost
  • 聚类算法:K-Means, EM(最大期望算法)
  • 关联分析:Apriori
  • 连接分析 : PageRank
  • 时间序列 : AR, MA, ARMA, ARIMA模型

数学原理

    概率论与数理统计、线性代数、图论、优化方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值