大数据管理与分析 第九章 预处理

本文介绍了数据预处理中的噪声处理方法,特别是等宽和等深分箱策略,用于整理数据分布。同时,讨论了相关性分析,包括卡方检验和皮尔森积矩系数,通过实例展示了如何计算这些统计量来评估变量间的关联性。此外,还提及了协方差作为衡量变量间线性相关性的指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

噪声处理–分箱

等宽划分

  • A,B是属性的上下界,每个箱子的宽度就是 W = (B-A)/N

等深划分

  • 划分N段,每段长度相等

平滑方式,可以用均值,中位数,边界值等

在这里插入图片描述

  • 等宽划分 w = (34-4)/3 = 10,划分为 :4-14, 15-25 , 26-36

相关性分析

卡方: X 2 X^2 X2越大,变量相关性越强

在这里插入图片描述

卡方计算举例

在这里插入图片描述
在这里插入图片描述
各个期望值怎么计算出来的?
假设两个变量是不相关的,对于喜欢科幻小说的总人数是 450人,喜欢下象棋的:不喜欢下棋 = 1:4,即喜欢科幻小说有喜欢下象棋的有 4500.25 = 90,既喜欢科幻小说又不喜欢下象棋的人有 4500.75 = 360人

皮尔森积矩系数

在这里插入图片描述

  • -1表示负相关
  • 1 表示正相关
  • 0 代表不相关
  • σ A \sigma_A σA:表示标准差

协方差

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值