数据科学学习笔记7 --- 数据挖掘基础

1. 数据挖掘的定义

· 广义:知识发现的全过程

· 狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法

· 知识发现的流程如下:

(1)数据准备:掌握知识发现应用领域的情况,熟悉相关背景知识,理解用户需求

(2)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或者样本

(3)数据预处理:对数据选取步骤中选出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计的等方法填充丢失的数据。

(4)数据变换:根据知识发现的任务对经过预处理的数据进行再处理,将数据变换或统一成是和挖掘的形式,包括投影、汇总、聚集等。

(5)数据挖掘:确定发现目标,根据用户的需求,确定要发现的知识类型。根据确定的任务选择合适的分类、关联、聚类等算法,选取合适的模型和参数,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。

(6)模式解释:对在数据挖掘中发现的模式进行解释。经过用户或者机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就返回前面的响应步骤反复提取。

(7)知识评价:将发现的知识以用户能了解的形式呈现给用户。


在上述步骤中,数据挖掘占据非常重要的地位,是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化的分析企业的数据,做出归纳性的整理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策,数据挖掘决定了整个过程的效果与效率。


2. 数据挖掘的任务

· 数据挖掘的任务包括分类与回归分析、相关分析、聚类分析、关联规则挖掘和异常检测等,分为预测和描述两大类

· 预测任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(Target variable)或因变量(Dependent variable),而被用来预测的属性称为说明变量(Explanatory variable)或自变量(Independent variable)。

· 描述任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)。

· 预测任务是在当前数据上进行归纳以做出预测,描述性挖掘主要是刻画目标数据中数据的一般性质。


(1)分类(Classification)

· 分类属于有监督学习,即从给定的有标记训练数据集中学习出一个函数,当未标记数据到来时,可以根据这个函数预测结果

· 在数据挖掘领域,分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。

· 分类找出描述和区分数据类或者概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号,导出的模型是基于对训练数据集(即类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。

· 到处模型的表示形式有分类规则、决策树、数学公式、神经网络等。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值