基于支持向量机的查询自适应排序
1. 算法概述
在排序问题中,数据的块结构是一个独特的特征。我们提出了K-最近块(KNB)排序方法,其基于传统的K-最近邻方法,旨在利用块之间的差异来训练更准确的排序模型。以下是相关术语的解释:
- 查询相关特征向量 :对于给定的查询(这里是蛋白质序列),数据库中的一个项目(已知结构的蛋白质序列)被表示为一个(查询相关的)特征向量,用于衡量该项目与查询的相关性(同源性)。每个查询相关特征向量对应一个查询 - 项目对。
- 块 :块B是与同一查询相关的查询相关特征向量实例的集合。每个块对应一个查询,通常包含数百或数千个特征向量,这些特征向量是根据某种粗略的评分函数从数据库中最同源的蛋白质计算得出的。
- 训练块 :训练块是其中所有特征向量都有相关性判断的块。
- 测试块 :测试块是其中相关性判断不可用且需要进行判断的块。
- 块距离 :块距离D(Bi, Bj)是从两个块Bi和Bj到一个实数值的映射,用于衡量这两个块之间的不相似性。
- K个最近块 :顾名思义,一个块的K个最近块是根据块距离定义与该块最相似的K个训练块。
KNB方法有三个重要的子问题:
1. 如何找到K个最近的训练块?
2. 如何使用K个最近块学习排序模型?
3. 如何选择K的值?
不同的解决方案会导致KNB排序方法的不同实现。对于实际的检索系统,高速是一个至关重要的因素。
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



