数据挖掘笔记1-简介

目录

基本概念

数据收集和数据库的建立,到数据管理(存储、提取、事务管理),再到数据的分析和理解(数据仓库和挖掘),是信息化时代人们对数据利用的进化。
这里写图片描述
数据挖掘的出现是因为信息时代产生的巨大数据已经不能靠人工来分析和理解,要使用机器按照一定的算法和规则提取大量数据中的一些规律,当然挖掘的目标是利用这些规律创造新的价值。通常一个数据挖掘工程是按照下面的流程来进行的:

  1. Data Cleaning (noise / inconsistent data)
  2. Data Integration (combine multiple data sources)
  3. Data Selection (retrieve relevant data)
  4. Data Transformation (summary / aggregation)
  5. Data Mining (extract data patterns)
  6. Pattern Evaluation (measure interestingness)
  7. Knowledge Presentation (present to users)

技术概览

数据挖掘主要分为三大类技术:1、聚类分析。2、分类与回归。3、频繁模式、关联和相关性挖掘三大类

聚类分析

原始数据没有任何的类别,通过聚类模型把相似的对象放到一起,定义一个新的类别。无监督。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值