噪声处理–分箱
等宽划分
- A,B是属性的上下界,每个箱子的宽度就是 W = (B-A)/N
等深划分
- 划分N段,每段长度相等
平滑方式,可以用均值,中位数,边界值等
- 等宽划分 w = (34-4)/3 = 10,划分为 :4-14, 15-25 , 26-36
相关性分析
卡方: X 2 X^2 X2越大,变量相关性越强
卡方计算举例
各个期望值怎么计算出来的?
假设两个变量是不相关的,对于喜欢科幻小说的总人数是 450人,喜欢下象棋的:不喜欢下棋 = 1:4,即喜欢科幻小说有喜欢下象棋的有 4500.25 = 90,既喜欢科幻小说又不喜欢下象棋的人有 4500.75 = 360人
皮尔森积矩系数
- -1表示负相关
- 1 表示正相关
- 0 代表不相关
- σ A \sigma_A σA:表示标准差