排名聚合算法选择与特征选择的融合
1. 引言
在许多实际应用中,当使用多种排名算法时,排名聚合的任务就会出现。例如在计算生物学领域,会使用多种排名聚合算法来检测生理特征与基因的依赖关系;在网络搜索问题中,也会使用不同的排名聚合算法,每个算法会利用文档的不同特征进行评估,如文档的流行度、与查询的匹配质量、信息源的权威性等。
然而,对于给定的一组算法,要确定哪个算法是解决排名聚合问题的最佳选择并非易事。不同的算法在不同的任务上表现各异,这就引出了如何在不执行每个算法的情况下,找到能使给定问题的误差函数最小化的算法这一问题。
为了解决算法选择问题,元学习方法被引入。元学习将算法选择问题视为一个预测问题,通过使用任务的元特征信息来预测最佳算法,从而避免了满足“没有免费午餐定理”的条件。
2. 排名聚合
2.1 排列上的度量
排名的数学形式化涉及排列。排列π是一个由1到n之间的不同自然数组成的有序集合{π1, π2 …, πn},n为排列的长度。排列空间上的度量μ(a, b)是一个从Πn × Πn到R的函数,需满足对称性、重合公理、非负性和右不变性等公理。
本文使用了七种排列空间上的度量,包括:
- Minkowski距离 :
- 曼哈顿距离:l1(a, b) = ∑i |a(i) - b(i)|
- 欧几里得距离:l2(a, b) = ∑i(a(i) - b(i))²
- 切比雪夫距离:l∞(a, b) = maxi |a(i) - b(i)|
- Canberra距离 :∑i
超级会员免费看
订阅专栏 解锁全文
4840

被折叠的 条评论
为什么被折叠?



