48、利用高斯混合模型进行复杂数据的知识发现

最新推荐文章于 2025-11-03 18:30:06 发布

web99

最新推荐文章于 2025-11-03 18:30:06 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据分析与知识发现：前沿技术与应用文章标签：高斯混合模型 GMM 无限欧几里得距离

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/web99/article/details/150598170

大数据分析与知识发现：前沿技术与应用专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用高斯混合模型进行复杂数据的知识发现

1. 引言

高斯混合模型（GMMs）中高斯分量的数量可能不同，因此传统为固定长度向量设计的索引无法直接应用。对于基于相似性度量的索引，如 M - 树和 VP - 树，相似性度量需具备度量属性（如三角不等式）以保证查询的有效性和效率。本文的主要贡献包括：
- 将欧几里得距离推广到概率密度函数（PDFs）上的无限欧几里得距离（IED），证明其度量属性并推导出 GMMs 的闭式表达式。
- 通过对合成数据集和真实数据集的实验评估，证明 IED 的有效性和效率，且其性能优于之前用于 GMMs 的相似性度量。

2. 相关工作

2.1 数据表示

对于具有内在结构的对象，多实例（MI）是一种自然的描述方式。多实例学习（MIL）源于药物活性预测问题，处理由实例集合（或包）组成的 MI 对象。MIL 算法可分为三类：
- 基于实例空间的范式
- 基于包空间的范式
- 基于嵌入空间的范式，该范式将 MI 对象映射到新的特征空间

为表示实例数据，提出了多种映射方法：
- 基于词汇的映射：将所有包中的实例聚类为 k 个簇（词汇），然后使用直方图信息（即属于这些簇的实例计数）为每个包获得一个 k 维特征向量。
- 基于实例的映射：将实例建模为特征。例如，DD - SVM 使用根据 DD 度量获得的实例原型，而 MILES 选择一个实例作为特征。
- 基于模型的映射：将每个包训练为一个模型，如 k 分量混合模型、高斯分布、图等。

GMMs 能够近似任意分布，比特征向量和其他模型更准确地表示数据，并且是一种简洁的模型。 </

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。