数据分析实战之数据挖掘知识清单

本文详细介绍了数据挖掘的基本流程,包括商业理解、数据理解、数据准备、模型建立、模型评估及上线发布;同时深入探讨了十大核心算法,如C4.5、SVM、K-Means、Apriori等,并概述了数据挖掘背后的数学原理,如概率论、线性代数、图论及最优化方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据挖掘的基本流程:

1 商业理解:数据挖掘是为业务服务的,从商业的角度理解项目需求的基础上再对数据挖掘的目标进行定义

2 数据理解:收集数据,对数据进行探索,包括数据的描述、数据质量的验证

3 数据准备:对数据进行清洗、集成等操作

4 模型建立:选择和应用合适的模型,并进行优化

5 模型评估:对模型进行评价,确认模型是否实现了预定的商业目标

6 上线发布:呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程

二、数据挖掘的十大算法:

分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,  Adaboost,CART

聚类算法:K-Means,EM

关联分析:Apriori

连接分析:PageRank

三、数据挖掘的数学原理:

1 概率论与数理统计:条件概率,独立性,随机变量,多维随机变量等概念

2 线性代数:向量和矩阵,PCA方法,SVD方法,以及MF,NMF方法

3 图论:对网络结构的分析非常有效,在关系挖掘和图像分割中也有重要作用

4 最优化方法:用最短的时间得到收敛,取得更好地效果

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值