基于排列的索引技术:枢轴选择与量化排名策略解析
枢轴选择策略实验结果
在相似性搜索中,枢轴选择策略对基于排列的访问方法性能有着重要影响。我们对PSR、PP - Index和MI - File这三种访问方法,分别测试了FFT、kMED、rnd、BPP和PSIS这五种枢轴选择策略。
PSR方法
- 位置参数l = 100时的Recall@r :从相关结果来看,FFT策略在有效性方面明显优于其他技术,PSIS策略的表现远不如其他策略,其余策略的结果较为接近。
- 不同位置参数l的测试 :位置参数l会直接影响查询成本,当l接近n(即使用更完整的排列)时,FFT策略与其他策略的差异更为显著。当l大于100时,各策略的性能变化不明显。
以下是不同策略在PSR方法中的表现对比表格:
| 策略 | 位置参数l = 100时表现 | 不同l值时表现 |
| — | — | — |
| FFT | 有效性最优 | l接近n时优势显著,l > 100变化小 |
| kMED | 与部分策略接近 | 表现较稳定 |
| rnd | 与部分策略接近 | 表现较稳定 |
| BPP | 与部分策略接近 | 表现较稳定 |
| PSIS | 显著差于其他策略 | 表现较差 |
PP - Index方法
- 配置设置 :设置前缀长度l为6,z值为1000,测试了单查询和多查询搜索,以九查询(八次额外查询)