2、机器学习中的统计相似性与自适应智能电子学习系统的ML方法发展

机器学习中的统计相似性与自适应智能电子学习系统的ML方法发展

1. 机器学习中的统计相似性

在机器学习领域,传统使用欧几里得距离的方法在处理由独立同分布随机值矩阵表示的对象分类问题时存在局限性。为了解决这一问题,提出了基于非参数相似性度量和非参数双样本同质性检验的无特征方法。

1.1 双样本同质性度量

考虑来自总体A和B的训练样本a = (a1, a2, …, an) ∈ A和b = (b1, b2, …, bn) ∈ B,它们分别服从绝对连续分布F和G。对于测试样本c = (c1, c2, …, cn),分类问题可归结为检验c与a以及c与b的同质性。

常见的非参数双样本同质性检验方法各有优缺点:
| 检验方法 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 柯尔莫哥洛夫 - 斯米尔诺夫检验 | 能检验一般假设F = G,具有普遍性 | 对异常值敏感,需要大样本 |
| 威尔科克森符号秩检验 | - | 仅检验位置偏移假设,不具有普遍性 |

在众多方法中,Klyushin和Petunin(2003)开发的方法被认为是最有效和通用的。

1.2 Klyushin - Petunin检验

该检验是非参数的,使用了Hill(1968)的假设:对于具有连续分布的可交换随机值a1, a2, …, an ∈ F,有:
[P\left{x \in \left(a_{(i)}, a_{(j)}\right)\right}=\frac{1}{n}, i<j]
其中a(i)和a(j)是顺序统计量,x服从F。

具体步骤如下

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值