第三章 探索数据

本章节聚焦于数据探索,涉及汇总统计如频率、百分位数、位置度量及散布度量,以及数据可视化技术,包括直方图、盒状图、散布图和高维数据的可视化方法。通过这些方法,可以更好地理解数据分布和数据间的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

探索数据

  • 有助于选择合适的数据预处理和数据分析技术
  • 处理一些通常由数据挖掘解决的问题
  • 包括三个主题:汇总统计、可视化、OLAP

3.2 汇总统计

  • 频率和众数

    • 多用于分类数据
  • 百分位数

    • 多用于连续数据
  • 位置度量:均值和中位数

    • 均值对离群值很敏感 ——> 截断均值
  • 散布度量:极差和方差

    • 极差是最大值和最小值的差
    • 方差对离群值敏感,常常需要使用更稳健的估计:
      • 绝对平均偏差(AAS)
        在这里插入图片描述
      • 中位数绝对偏差(MAD)
        在这里插入图片描述
      • 四分位数极差(IQR)
        在这里插入图片描述
  • 多元汇总统计

    • 协方差矩阵:
      在这里插入图片描述
    • 相关矩阵
      在这里插入图片描述
      • 【-1,1】之间

    3.3 可视化

  • 表示:将数据映射到图形元素

  • 安排

  • 选择:删除或不突出某些对象和属性

    • 对于维度不太高的可以构造双变量(双属性)图矩阵用于联合观察

技术
  • 直方图:
    • 常显示单变量的分布
    • 相对频率直方图:用相对频率取代计数
  • 二维直方图:
  • 盒状图(箱型图):显示一维数值属性值分布
  • 散布图(Scatter plots):
    • 多用于二维,图形化地显示两个属性之间的关系。
    • 当类标号给出时,可以使用散布图考插两个属性将类分开的程度。

可视化高维数据
  • 以下只能显示数据的某些侧面!!
  • 矩阵:
    • 属性需要规范化
  • 平行坐标系
  • 星形坐标
    • 和平行坐标系很相似,但是轴从中心点向四周辐射
  • Chernoff Faces、
    • 将每个属性与脸的特征联系起来
    • 每一个对象都是一个独立的脸
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值