回忆版
选择题跟往年基本一样,略有改动。问题不大。下面公众号中基本涵盖了,选择题此处省略。微信公众平台https://mp.weixin.qq.com/s/EjOvz3Pb1cQg5wJo7axStQ
计算题难度一般,老师比较友好,没有太难为人。
简答题题量较多,虽然开卷但时间还是比较紧张的。
一、选择题
1. 关于HITS正确的是:
A.可以线下计算
B.需要定期更新
C.是一种静态相关评分
D.网页authority和HUB值随不同查询变化
2. 关于BIM模型正确的是:
A.基于2-Poisson假设
B.是一种类似Pagerank的静态评分公式
C.综合考虑TF和IDF
D.以上都不对
二、计算题
1.考虑一个有1000篇文档的文档集,某个查询相关文档总数为6。考虑三个系统前10个检索结果(左边结果排名靠前),相关性判断情况如下,R代表相关,N不相关,在某个召回率水平r上的插值正确率,定义为对于任意不小于r的召回率水平r’所对应的最大正确率。
系统1 RNNRN NNNRR
系统2 NRNNN RRRNN
系统3 RRNNN NNNRN
2) 计算每个系统前10篇文档的F1值
3) 计算每个系统未插值的AP值
4) 计算每个系统在40%召回率水平上的插值正确率
2.(censure OR caprice) AND (sister OR derision) AND (depth OR hopes)
其中每个词项对应的倒排记录长度如下:
censure:37653
caprice:19778
sister:145502
derision:16554
depth:107789
hopes:258976
1) 请推荐查询的合并次序
2) 对于逻辑和构成的查询,按照倒排记录从小到大合并次序是不是一定是最优的?如果是,给出解释,不是,举出反例
3. 词项{2,10,11,12,15,52,63,165,298,370,400}使用VB编码,词项的倒排记录一共需要多少字节?(只计算这些数字序列进行编码的空间消耗),写计算过程
三、简答题
1. 尝试讨论当前大语言模型在信息检索在应用中所存在的主要问题和可能解决的方法。简单回答
2. 基于BERT交叉编码的检索模型在线上计算效率问题。该模型的计算开销主要来源于模型东西哪个计算步骤?可以有哪几种解决思路?简单回答
3. 举例不少于6中的信息检索模型,分别用简短的话说明每种的优缺点
4. 信息检索评价:
1) 未插值的平均正确率怎么考虑召回率
2) 互联网搜索通常非常强调排名靠前的文档查准率。为什么现在检索增强生成系统的检索效果更注重于召回率和命中率。 简答题