UIUC大学之Coursera课程Text Retrieval and Search Engines:Week 3 Quiz

本文深入探讨了语言模型在概率计算中的应用,包括语言模型的不平等性、单词概率计算、最大似然估计、平滑技术、查询可能性评估、参数调整对概率的影响、反馈机制对检索系统的精度与召回率的影响,以及Rocchio反馈机制在检索系统中的应用。通过这些技术的解析,读者可以更全面地理解信息检索和自然语言处理的基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Week 3 QuizHelp Center

Warning: The hard deadline has passed. You can attempt it, but you will not get credit for it. You are welcome to try it as a learning exercise.

Question 1

Assume you are using a unigram language model to calculate the probabilities of phrases. Then, the probabilities of generating the phrases “study text mining” and “text mining study” are  not equal, i.e., P(“study text mining”)   P(“text mining study”).

Question 2

You are given a vocabulary composed of only four words: “the”, “computer”, “science”, and “technology”. Below are the probabilities of three of these four words given by a unigram language model. 
WordProbability

the

0.4

computer

0.2

science

0.3


What is the probability of generating the phrase “the technology” using this unigram language model?

Question 3

You are given the query Q= “online courses” and two documents:
D1 = “online courses search engine”
D2 = “online education is affordable”
Assume you are using the maximum likelihood estimator  without smoothing to calculate the probabilities of words in documents (i.e., the estimated  p(w|D)  is the relative frequency of word  w  in the document  D ). Based on the unigram query likelihood model, which of the following choices is correct?

Question 4

Assume the same scenario as in Question 3, but using linear interpolation (Jelinek-Mercer) smoothing with  λ=0.5 . Furthermore, you are given the following probabilities of  some of the words in the collection language model:

Word

P(w|C)

online

1/4

courses

1/4

education

1/8


Based on the unigram query likelihood model, which of the following choices is correct?

Question 5

The BM25 has more free parameters to tune than the ranking function of the Dirichlet Prior smoothing.

Question 6

Assume you are using Dirichlet Prior smoothing to estimate the probabilities of words in a certain document. What happens to the smoothed probability of the word when the parameter  μ  is  increased?

Question 7

It is possible that pseudo feedback decreases the precision and recall of a certain retrieval system.

Question 8

Refer to the Rocchio feedback formula in the slides. If you want to eliminate the effect of  non-relevant documents when doing feedback, which of the following parameters must be set to zero?

Question 9

Let  q  be the original query vector,  DR={P1,...,Pn}  be the set of positive document vectors, and  DN={N1,...,Nm}  be the set of negative document vectors. Let  q1  be the expanded query vector after applying Rocchio on  DR  and  DN  with positive parameter values  α β , and  γ . Let  q2  be the expanded query vector after applying Rocchio on  DR  and  DN  with the same values for α β , but  γ  being set to zero. Which of the following is correct?

Question 10

Which of the following is  not true about the KL-divergence retrieval model?
资源下载链接为: https://pan.quark.cn/s/140386800631 通用大模型文本分类实践的基本原理是,借助大模型自身较强的理解和推理能力,在使用时需在prompt中明确分类任务目标,并详细解释每个类目概念,尤其要突出类目间的差别。 结合in-context learning思想,有效的prompt应包含分类任务介绍及细节、类目概念解释、每个类目对应的例子和待分类文本。但实际应用中,类目和样本较多易导致prompt过长,影响大模型推理效果,因此可先通过向量检索缩小范围,再由大模型做最终决策。 具体方案为:离线时提前配置好每个类目的概念及对应样本;在线时先对给定query进行向量召回,再将召回结果交给大模型决策。 该方法不更新任何模型参数,直接使用开源模型参数。其架构参考GPT-RE并结合相关实践改写,加入上下文学习以提高准确度,还使用BGE作为向量模型,K-BERT提取文本关键词,拼接召回的相似例子作为上下文输入大模型。 代码实现上,大模型用Qwen2-7B-Instruct,Embedding采用bge-base-zh-v1.5,向量库选择milvus。分类主函数的作用是在向量库中召回相似案例,拼接prompt后输入大模型。 结果方面,使用ICL时accuracy达0.94,比bert文本分类的0.98低0.04,错误类别6个,处理时添加“家居”类别,影响不大;不使用ICL时accuracy为0.88,错误58项,可能与未修改prompt有关。 优点是无需训练即可有较好结果,例子优质、类目界限清晰时效果更佳,适合围绕通用大模型api打造工具;缺点是上限不高,仅针对一个分类任务部署大模型不划算,推理速度慢,icl的token使用多,用收费api会有额外开销。 后续可优化的点是利用key-bert提取的关键词,因为核心词语有时比语意更重要。 参考资料包括
内容概要:本文详细介绍了哈希表及其相关概念和技术细节,包括哈希表的引入、哈希函数的设计、冲突处理机制、字符串哈希的基础、哈希错误率分析以及哈希的改进与应用。哈希表作为一种高效的数据结构,通过键值对存储数据,能够快速定位和检索。文中讨论了整数键值和字符串键值的哈希方法,特别是字符串哈希中的多项式哈希及其优化方法,如双哈希和子串哈希的快速计算。此外,还探讨了常见的冲突处理方法——拉链法和闭散列法,并提供了C++实现示例。最后,文章列举了哈希在字符串匹配、最长回文子串、最长公共子字符串等问题中的具体应用。 适合人群:计算机科学专业的学生、算法竞赛选手以及有一定编程基础并对数据结构和算法感兴趣的开发者。 使用场景及目标:①理解哈希表的工作原理及其在各种编程任务中的应用;②掌握哈希函数的设计原则,包括如何选择合适的模数和基数;③学会处理哈希冲突的方法,如拉链法和闭散列法;④了解并能运用字符串哈希解决实际问题,如字符串匹配、回文检测等。 阅读建议:由于哈希涉及较多数学知识和编程技巧,建议读者先熟悉基本的数据结构和算法理论,再结合代码实例进行深入理解。同时,在实践中不断尝试不同的哈希策略,对比性能差异,从而更好地掌握哈希技术。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值