信息检索与图像标注中的量子技术应用探索
在信息检索和图像标注领域,新技术的应用不断推动着相关研究的发展。本文将介绍动态量子聚类(DQC)在信息检索中的实验,以及基于量子理论的图像标注新方法。
动态量子聚类在信息检索中的实验
实验基于TREC 2001 Web Track测试集进行,该测试集包含网页语料库、50个主题以及人工评估的相关性评估。实验仅针对主题501和502,具体步骤如下:
1. 考虑针对特定主题q判断的文档集DJ,q。
2. 选择k个术语来表示文档,其中h个术语从主题标题中提取,k - h个术语从DJ,q中的文档中提取,不考虑停用词。
3. 准备一个术语 - 文档矩阵A ∈Rk×|DJ,q|,其中元素Aj,i是术语j在文档i中的权重wi,j。
4. 对A应用奇异值分解(SVD),将A分解为A = UΣV T,并考虑矩阵V的前k′列。
5. 对矩阵V T应用DQC。
为了实现上述步骤,对COMPACT软件进行了调整。步骤2旨在减少表示文档的术语数量,从而降低矩阵A的维度。实验通过改变σ的值(σ ∈[0.01, 1])和术语选择策略进行,具体包括:
- 术语数量k ∈{10, 100, 1000}。
- 术语提取的集合,包括DJ,q、仅相关文档子集DR ⊆DJ,q、相关和非相关文档集大致相同数量的术语。
- 术语排序的权重,使用文档频率(DF)、逆文档频率(IDF)和RSJ术语加权计算。
实验结果表明,改变术语来源对两个主题的结果相当,改变σ对结果没有影响。表1显示了不同主成分数量下的各种有效性指标的平均值:
| k′ | 真阳性 | 假阳性 | 召回率 | 准确
超级会员免费看
订阅专栏 解锁全文
873

被折叠的 条评论
为什么被折叠?



