机器学习中的统计相似性与相关应用探索
1. 机器学习中的统计相似性概述
在机器学习领域,算法的准确性很大程度上依赖于特征空间中对象接近性假设的实现程度。这个假设保证了基于训练样本进行泛化的可能性。它假定同一类别的对象在特征空间中形成一个边界平滑的紧凑区域。著名的 Fisher 鸢尾花问题就是这一假设的经典例证,在该问题中,三类点在平面上形成了易于分离且密集的云状分布。
不过,紧凑性假设存在明显的局限性。当对象不是由一个点而是由多个点定义时,该假设难以进行有效泛化。这种情况在医学研究中十分常见,例如从患者身上采集大量细胞并测量其不同特征,此时患者在特征空间中不再由一个向量表示,而是由一个特征样本矩阵表示,且矩阵列中数字的顺序是随机的。若将矩阵简化为向量,仅考虑均值向量,会丢失特征值分布的重要信息。
因此,我们需要用基于数学统计规律的随机样本接近性的替代假设来取代紧凑性假设。我们建议采用数学统计中样本同质性的概念,即假设样本来自同一分布。在机器学习术语中,这意味着对象特征样本具有相同的分布。基于此方法,我们可以使用多种统计标准来检验同质性假设。
2. 无特征机器学习
无特征或关系机器学习的先驱是 Duin 和 Mottl 等科学流派。他们的思路是用对象与训练数据集的相似度度量来替代对象的特征向量。但这并非解决使用特征值矩阵进行对象分类问题的有效方法。在这种情况下,需要运用统计工具而非几何工具,例如两样本同质性检验,像 Kolmogorov - Smirnov 检验和 Mann - Whitney - Wilcoxon 检验。
然而,使用这些检验方法只能得到表示样本同质性概率的 p 值,无法获得样本间相似性的数值度量。以下
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



