机器学习中的统计相似性与自适应智能电子学习系统的ML方法发展
1. 机器学习中的统计相似性
在机器学习领域,传统使用欧几里得距离的方法在处理由独立同分布随机值矩阵表示的对象分类问题时存在局限性。为了解决这一问题,提出了基于非参数相似性度量和非参数双样本同质性检验的无特征方法。
1.1 双样本同质性度量
考虑来自总体A和B的训练样本a = (a1, a2, …, an) ∈ A和b = (b1, b2, …, bn) ∈ B,它们分别服从绝对连续分布F和G。对于测试样本c = (c1, c2, …, cn),分类问题可归结为检验c与a以及c与b的同质性。
常见的非参数双样本同质性检验方法各有优缺点:
| 检验方法 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 柯尔莫哥洛夫 - 斯米尔诺夫检验 | 能检验一般假设F = G,具有普遍性 | 对异常值敏感,需要大样本 |
| 威尔科克森符号秩检验 | - | 仅检验位置偏移假设,不具有普遍性 |
在众多方法中,Klyushin和Petunin(2003)开发的方法被认为是最有效和通用的。
1.2 Klyushin - Petunin检验
该检验是非参数的,使用了Hill(1968)的假设:对于具有连续分布的可交换随机值a1, a2, …, an ∈ F,有:
[P\left{x \in \left(a_{(i)}, a_{(j)}\right)\right}=\frac{1}{n}, i<j]
其中a(i)和a(j)是顺序统计量,x服从F。
具体步骤如下
超级会员免费看
订阅专栏 解锁全文

18万+

被折叠的 条评论
为什么被折叠?



