[转] TEST 数据挖掘知识清单

最新推荐文章于 2025-09-20 10:22:15 发布

转载最新推荐文章于 2025-09-20 10:22:15 发布 · 270 阅读

·

0

·

DA45 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了数据挖掘的基本流程，包括商业理解、数据理解、数据准备、模型建立、模型评估及上线发布等步骤，并概述了常用的分类算法、聚类算法、关联分析等数据挖掘算法。

数据挖掘的基本流程

商业理解：数据挖掘不是我们的目的，我们的目的是更好地帮助业务，所以第一步我们要从商业的角度理解项目需求，在这个基础上，再对数据挖掘的目标进行定义。
数据理解：尝试收集部分数据，然后对数据进行探索，包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
数据准备：开始收集数据，并对数据进行清洗、数据集成等操作，完成数据挖掘前的准备工作。
模型建立：选择和应用各种数据挖掘模型，并进行优化，以便得到更好的分类结果。
模型评估：对模型进行评价，并检查构建模型的每个步骤，确认模型是否实现了预定的商业目标。
上线发布：模型的作用是从数据中找到金矿，也就是我们所说的“知识”，获得的知识需要转化成用户可以使用的方式，呈现的形式可以是一份报告，也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分，那么后续的监控和维护就会变得重要。

数据挖掘的常用算法

分类算法：C4.5决策树, 朴素贝叶斯(Naive Bayes), SVM(支持向量机), KNN(K最近邻算法), CART决策树, AdaBoost
聚类算法：K-Means, EM(最大期望算法)
关联分析：Apriori
连接分析 : PageRank
时间序列 : AR, MA, ARMA, ARIMA模型

数学原理

概率论与数理统计、线性代数、图论、优化方法

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。