数据分析与数据挖掘期末复习(一)

复习一为概念性的知识,复习二为算法类的知识

第一章 

Ⅰ. 数据挖掘的概念和对象。

数据挖掘的定义:
①广义技术角度的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。
②狭义技术角度的定义
也有人把数据挖掘视为知识发现过程中的一个基本步骤。例如Fayyad过程模型主要包含以下七个阶段,知识发现过程由这些步骤的迭代序列组成:
a.知识表示
b.数据清理
c.数据集成
d.数据选择
e.数据变换
f.数据挖掘
g.模式评估 
③商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
数据挖掘 从商业的角度 可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
数据挖掘对象:
1.  关系数据库
2.  数据仓库
3.  文本
4.  多媒体数据
5.Web数据
6.  复杂类型的数据

.数据挖掘常用技术和应用场景

数据挖掘中常用的十三种技术:
统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等

 数据挖掘的应用场景

数据挖掘应用最集中的领域包括金融、医疗、教育、零售、电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。
以软件工程数据挖掘为例:
软件工程数据(软件开发过程中积累的各种数据):可行性分析和需求分析文档、设计文档、使用说明、软件代码和注释、软件版本及其演化数据、测试用例和测试结果、软件开发者之间的通信、用户反馈等
应用领域的案例:
电商领域:借助于交易记录挖出破坏规则的“害群之马”
交通领域:为打车平台的乘客订制弹性价格
医疗领域:为乔布斯寻找最佳的医疗方案

第二章 数据预处理

Ⅰ数据预处理的形式

  1. 数据清理
    补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致
  2. 数据集成
    集成多个数据库、数据立方或文件
  3. 数据变换
    规范化、数据离散化、概念分层产生
  4. 数据归约
    简化数据、但产生同样或相似的结果

Ⅱ数据清洗

现实世界的数据一般是脏的、不完整的和不一致的。而数据清洗试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。因此,从如下几个方面介绍:
1.空缺值;
2.噪声数据;
3.不一致数据。

1.空缺值

数据并不总是完整的数据库表中,很多条记录的对应字段可能没有相应值,比如销售表中的顾客收入
如何处理空缺值
1)忽略该元组:
2)人工填写空缺值
3)使用属性的平均值填充空缺值
4)使用一个全局变量填充空缺值
5)使用与给定元组属同一类的所有样本的平均值
6)使用最可能的值填充空缺值(最常用)
7)使用填充算法来处理缺失数据

2.噪声数据

噪声(noise):是一个测量变量中的随机错误或偏差,包括错误的值和偏离期望的孤立点值。
引起噪声数据的原因:
数据收集工具的问题
数据输入错误
数据传输错误
技术限制
命名规则的不一致
如何处理噪声数据
1)分箱 (binning):
分箱的步骤
首先排序数据,并将它们分到等深(等宽)的箱中,然后可以按箱的平均值、按箱中值或者按箱的边界等进行平滑。
按箱的平均值平滑:箱中每一个值被箱中的平均值替换
按箱的中值平滑:箱中的每一个值被箱中的中值替换
按箱的边界平滑:箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换
① 等深分箱 (binning):
按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。
示例:
已知一组价格数据:15,21,24,21,25,4,8,34,28 现用等深(深度为3)分箱方法对其进行平滑,以对数据中的噪声进行处理。
解:排序后的数据:4,8,15,21,21,24,25,28,34
        划分为等高度的Bins :
  Bin1: 4,8,15
### 关于数据分析数据挖掘期末复习资料 #### 数据规约的重要性 为了提高数据分析效率,在处理大规模数据集时,采用数据规约技术变得至关重要。因为即使现代数据仓库能够容纳海量的数据(如TB级别),但在未经压缩或简化的情况下直接对其进行复杂的查询操作可能会消耗大量时间[^1]。 #### Python金融数据挖掘复习资源概述 对于准备涉及Python编程环境下的金融领域内的数据挖掘课程考核而言,网络平台上存在不少有助于备考的学习材料。例如有UP主分享了系列针对不同算法原理及其应用实例解析的教学视频,这些内容覆盖了从基础概念到具体实现方法论等多个方面,非常适合用来作为考前冲刺阶段参考资料之[^2]。 #### ID3算法详解 特别提到的是有关ID3决策树构建过程中的计算题目练习部分,该系列教程不仅提供了理论层面的知识点梳理,还通过实际案例演示帮助理解如何运用熵增益来选择最优分裂属性,并最终形成棵有效的分类模型结构。这对于掌握基于规则归纳的方法具有很大助益作用。 ```python def calculate_entropy(data_set): from math import log2 total_entries = len(data_set) label_counts = {} for feat_vec in data_set: current_label = feat_vec[-1] if current_label not in label_counts.keys(): label_counts[current_label] = 0 label_counts[current_label] += 1 entropy_value = 0.0 for key in label_counts: prob = float(label_counts[key]) / total_entries entropy_value -= prob * log2(prob) return entropy_value ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值