利用高斯混合模型进行复杂数据的知识发现
1. 引言
高斯混合模型(GMMs)中高斯分量的数量可能不同,因此传统为固定长度向量设计的索引无法直接应用。对于基于相似性度量的索引,如 M - 树和 VP - 树,相似性度量需具备度量属性(如三角不等式)以保证查询的有效性和效率。本文的主要贡献包括:
- 将欧几里得距离推广到概率密度函数(PDFs)上的无限欧几里得距离(IED),证明其度量属性并推导出 GMMs 的闭式表达式。
- 通过对合成数据集和真实数据集的实验评估,证明 IED 的有效性和效率,且其性能优于之前用于 GMMs 的相似性度量。
2. 相关工作
2.1 数据表示
对于具有内在结构的对象,多实例(MI)是一种自然的描述方式。多实例学习(MIL)源于药物活性预测问题,处理由实例集合(或包)组成的 MI 对象。MIL 算法可分为三类:
- 基于实例空间的范式
- 基于包空间的范式
- 基于嵌入空间的范式,该范式将 MI 对象映射到新的特征空间
为表示实例数据,提出了多种映射方法:
- 基于词汇的映射:将所有包中的实例聚类为 k 个簇(词汇),然后使用直方图信息(即属于这些簇的实例计数)为每个包获得一个 k 维特征向量。
- 基于实例的映射:将实例建模为特征。例如,DD - SVM 使用根据 DD 度量获得的实例原型,而 MILES 选择一个实例作为特征。
- 基于模型的映射:将每个包训练为一个模型,如 k 分量混合模型、高斯分布、图等。
GMMs 能够近似任意分布,比特征向量和其他模型更准确地表示数据,并且是一种简洁的模型。 </
超级会员免费看
订阅专栏 解锁全文
1327

被折叠的 条评论
为什么被折叠?



