数据挖掘 note2

数据探索是数据挖掘的重要步骤,旨在理解数据特点,包括数据类型、质量及分布。常用技术包括统计学、可视化和聚类。摘要统计如频率、模式、百分位数、平均值和中值提供了数据的概况。可视化技术如直方图、箱形图、散点图、矩阵图和平行坐标等帮助直观展示数据。数据属性分为名义、顺序、间隔和比率四种类型,选择正确的数据处理方法取决于属性的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Outline

1、数据特点
属性和对象
数据类型
数据质量
2、 基本数据探索技术
基本统计学
数据可视化
3、对分类问题的介绍
决策树

Data exploration

初步的数据探索是为了更好的理解数据特点

  • 其动机在于:有助于在为数据预处理和分析时选择正确的工具、利用人类的能力识别模式

  • 用到的技术有: 可视化、聚类和异常检测
    要注意的是,在数据挖掘中,聚类和异常检测是主要的关注领域,而不是仅仅是探索性技术。

摘要统计summary statistics
摘要统计是总结到的数据属性的个数。汇总的属性包括频率,位置和散布。比如我们用均值定位,用标准差确定散布程度


频率和模式
frequency:某属性的频率就是该属性出现的百分比
mode:属性的模式是最频繁的属性值
百分位percentiles
一般对于连续数据,百分位的概念更有用。
定义:给定连续属性x 和 介于0和100之间的数字p,那么第p个百分位数xp,就是使x的前p%的值均小于xp。

(来自百度百科:一组n个观测值按数值大小排列。处于p%位置的值称第p百分位数)
平均值,中值

  • mean平均值:比较通用的位置测量方法,但是对异常点outliers很敏感在这里插入图片描述
  • median 中值:所有数据排序后,最中间的那个数据值在这里插入图片描述
    传播测量 :范围和方差
  • 范围range:最大值➖最小值
  • 方差variance:在这里插入图片描述

常用的可视化技术

  • 直方图
    将某属性值划分根据类别或者范围划为箱,并显示每个箱中对象数量的条形图。每个条形的高度表示对象的数量
  • 箱形图
    在这里插入图片描述
  • 散点图
    在这里插入图片描述
  • 矩阵图: matrix plots
  • 平行坐标:parallel coordinates
    代替使用垂直轴,而使用一组平行轴。将每个对象的属性值绘制为每个相应坐标轴上的一个点,并用一条线将这些点连接起来,这样每个对象都被表示为一条线。通常,代表不同类别的对象的线 至少在某些属性上分组在一起。画这种图的时候,属性排序比较重要。见下图
    在这里插入图片描述
    在这里插入图片描述
  • 星形图
    与平行坐标法相似 ,只不过轴从中心辐射出去,先就变成了多边形polygon。
  • chernoff 脸
    这种方法将每个属性与面部特征相关联,比如脸的长度,额头的形状等等,如下图:
    1、先将每个属性与面部特征相关联在这里插入图片描述
    2、得到人脸轮廓
    在这里插入图片描述
    3、得到脸
    在这里插入图片描述
  • 建立多维数组
    确定哪些属性将成为维度(应该是离散的)和 哪个属性将成为目标属性。
    通过将(目标属性的)值或具有与该条目对应的属性值的所有对象的计数求和,来找到多维数组中每个条目的值。
    比如下图:在这里插入图片描述

数据属性

  • 数据是数据对象及其属性的组合:在这里插入图片描述

  • 数据可能会有不同的parts ,这些parts之间可能会有关联,数据也可能有结构,也可能是不完整的。。。。

  • 属性的类型:
    1、nominal 无序的,类别属性。比如卡号,眼睛颜色。按照是否一样分
    2、ordinal 有序属性,比如身高,名次。按照大小分
    3、interval 比如日期,温度。按照是否一样,大小和和差是否有意义。
    3、ratio 比如长度,数量。按照是否一样,大小和和差是否有意义,比例是否有意义。
    在这里插入图片描述
    判断一个属性是什么类别的,看下表即可:
    在这里插入图片描述

  • 包含记录集合的数据,每个记录包含一组固定的属性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值