图像分类与聚类技术:从理论到实践
1. 引言
在如今的多媒体数据库领域,相似性搜索是一项极为关键的操作。它旨在依据特定的距离度量,在数据集中找出与查询对象相似的对象。为了高效解决相似性查询问题,通常会构建索引结构,其中基于排列的算法是较为成功的索引方法之一。同时,图像分类研究致力于寻找能自动将图像归类到有限类别中的表示方法,一般图像分类算法在分类前需要对图像进行预处理,涵盖提取相关特征和基于先验知识分割图像子组件等操作。
2. 排列聚类列表在邻近搜索中的性能
在邻近搜索中,排列聚类列表(LCP)展现出了出色的性能。与传统方法如LC(List of Cluster)相比,LCP在多个方面具备显著优势。
- 时间与评估效率 :LCP方法仅需LC距离评估次数的44%,就能达到88%的召回率,并且仅使用LC CPU时间的48%。
- 空间占用 :LCP索引占用的空间极小,每个非中心对象只需一个标识符,中心排列仅需|P|²个单元。例如,当使用1000个对象的桶时(即|P| = 100),每个对象大约仅需7.7位。
以下是不同方法在不同维度和对象数量下的查询时间和排列移位次数的对比表格:
| 维度 | 对象数量 | 方法 | 查询时间(秒) | 排列移位次数 |
| ---- | ---- | ---- | ---- | ---- |
| 8 | 100,000 | LC | - | - |
| 8 | 100,000 | LCP b1000 | - | - |
| 8 | 100,000 | LCP b2000 | - |