噪声处理–分箱
等宽划分
- A,B是属性的上下界,每个箱子的宽度就是 W = (B-A)/N
等深划分
- 划分N段,每段长度相等
平滑方式,可以用均值,中位数,边界值等

- 等宽划分 w = (34-4)/3 = 10,划分为 :4-14, 15-25 , 26-36
相关性分析
卡方: X 2 X^2 X2越大,变量相关性越强

卡方计算举例


各个期望值怎么计算出来的?
假设两个变量是不相关的,对于喜欢科幻小说的总人数是 450人,喜欢下象棋的:不喜欢下棋 = 1:4,即喜欢科幻小说有喜欢下象棋的有 4500.25 = 90,既喜欢科幻小说又不喜欢下象棋的人有 4500.75 = 360人
皮尔森积矩系数

- -1表示负相关
- 1 表示正相关
- 0 代表不相关
- σ A \sigma_A σA:表示标准差
协方差

本文介绍了数据预处理中的噪声处理方法,特别是等宽和等深分箱策略,用于整理数据分布。同时,讨论了相关性分析,包括卡方检验和皮尔森积矩系数,通过实例展示了如何计算这些统计量来评估变量间的关联性。此外,还提及了协方差作为衡量变量间线性相关性的指标。

被折叠的 条评论
为什么被折叠?



