IRISA在JRS 2012数据挖掘挑战赛中的参与及相关技术解析
在当今的数据挖掘领域,如何高效准确地处理和分析数据是一个重要的研究方向。本文将介绍IRISA在JRS 2012数据挖掘挑战赛中的参与情况,以及相关的技术和方法。
1. 数据表示与相似度计算
在信息检索(IR)中,数据通常以向量形式表示。在本次挑战赛中,每个对象被描述为一个25000维的稀疏向量。为了计算向量之间的相似度,常用的方法有Minkowsky Lp距离和余弦相似度。
- Minkowsky Lp距离 :对于两个向量x和y,Minkowsky距离定义为:$Lp(x, y) = \sqrt[p]{\sum_{i}|xi - yi|^p}$,其中p通常选择为1(曼哈顿距离)、2(欧几里得距离)或∞(切比雪夫距离)。当p < 1时,Lp不再是距离。
- 余弦相似度 :余弦相似度定义为:$cos(x, y) = \frac{\sum_{i}xi · yi}{|x|· |y|}$。由于它基于两个向量的标量积,对于稀疏向量,计算效率非常高,因为只需要考虑两个向量中值不为零的分量。当向量被归一化时,余弦相似度与L2距离等价,即$L2(x, y) = \sqrt{2 - 2 * cos(x, y)}$。
在实际应用中,这些距离或相似度度量通常是在向量的加权版本(如TF-IDF、Okapi等)之间计算的。一个向量作为查询向量,其最近邻是与它距离最小(或相似度最大)的向量。在IR中,通常会为查询向量和集合中的向量(训练向量)采用不同的加权方案,因为查询有一些特殊之处需要考虑。