2024年国科大【现代信息检索】期末试题——何苯老师

回忆版

选择题跟往年基本一样,略有改动。问题不大。下面公众号中基本涵盖了,选择题此处省略。微信公众平台https://mp.weixin.qq.com/s/EjOvz3Pb1cQg5wJo7axStQ

计算题难度一般,老师比较友好,没有太难为人。

简答题题量较多,虽然开卷但时间还是比较紧张的。

一、选择题

1. 关于HITS正确的是:

A.可以线下计算

B.需要定期更新

C.是一种静态相关评分

D.网页authority和HUB值随不同查询变化

2. 关于BIM模型正确的是:

A.基于2-Poisson假设

B.是一种类似Pagerank的静态评分公式

C.综合考虑TF和IDF

D.以上都不对

二、计算题

1.考虑一个有1000篇文档的文档集,某个查询相关文档总数为6。考虑三个系统前10个检索结果(左边结果排名靠前),相关性判断情况如下,R代表相关,N不相关,在某个召回率水平r上的插值正确率,定义为对于任意不小于r的召回率水平r’所对应的最大正确率。

系统1 RNNRN NNNRR

系统2 NRNNN RRRNN

系统3 RRNNN NNNRN

1)计算每个系统的P@5和P@10

2) 计算每个系统前10篇文档的F1值

3) 计算每个系统未插值的AP值

4) 计算每个系统在40%召回率水平上的插值正确率

2.(censure OR caprice) AND (sister OR derision) AND (depth OR hopes)

其中每个词项对应的倒排记录长度如下:

censure:37653

caprice:19778

sister:145502

derision:16554

depth:107789

hopes:258976

1) 请推荐查询的合并次序

2) 对于逻辑和构成的查询,按照倒排记录从小到大合并次序是不是一定是最优的?如果是,给出解释,不是,举出反例

3. 词项{2,10,11,12,15,52,63,165,298,370,400}使用VB编码,词项的倒排记录一共需要多少字节?(只计算这些数字序列进行编码的空间消耗),写计算过程

三、简答题

1. 尝试讨论当前大语言模型在信息检索在应用中所存在的主要问题和可能解决的方法。简单回答

2. 基于BERT交叉编码的检索模型在线上计算效率问题。该模型的计算开销主要来源于模型东西哪个计算步骤?可以有哪几种解决思路?简单回答

3. 举例不少于6中的信息检索模型,分别用简短的话说明每种的优缺点

4. 信息检索评价:

1) 未插值的平均正确率怎么考虑召回率

2) 互联网搜索通常非常强调排名靠前的文档查准率。为什么现在检索增强生成系统的检索效果更注重于召回率和命中率。 简答题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱吃小白兔的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值