基于时间属性的信息检索方法与片上系统IP核测试架构设计
1. 基于时间属性的信息检索方法
1.1 时间属性的IDF计算
在信息检索中,涉及到基于时间属性的逆文档频率(IDF)计算,公式如下:
[ IDF_{Time} = \log(\frac{N}{N - n}) ]
其中,$N$ 表示具有明确时间属性的查询集合中关键字 $k$ 的数量,$n$ 表示具有时间属性的输入查询集合中 $k$ 的数量。显然,$n$ 越大,$\frac{N}{N - n}$ 越大,$IDF_{Time}$ 也越大。
1.2 实验数据准备
- 利用搜狗2006年8月发布的搜索日志,收集40,000条数据作为训练集,其中20,000条是具有明确时间属性的查询,定义为训练子集1。
- 以同样的方式构建测试集和测试子集1。
- 对于训练子集1,根据不同的时间属性进一步划分为九个子集,从“2001年”到“2008年”以及一个“其他年份”,每个子集包含1000条查询。
- 对于测试子集1中的查询,额外移除时间属性并保留作为时间属性的票证数据集,将测试子集1视为具有隐式时间属性的查询集合。
- 收集网页数据,使用搜狗实验室2008年发布的搜狐新闻记录,提取
<content></content>之间的信息并使用Lucene进行索引。
1.3 评估指标
- MAP@30(前30个结果的平均精度均值) :反映系统在所有相关文档中
超级会员免费看
订阅专栏 解锁全文
9977

被折叠的 条评论
为什么被折叠?



