- 博客(5)
- 收藏
- 关注
原创 论文阅读笔记《Foundations of GenIR》
本文讨论了现代生成式AI模型对信息访问(information access,简称IA)系统的基本影响。跟传统AI相比,生成式AI的优势在于大规模训练和高级数据建模,它能生成更高质量、更像人话的回答,为IA范式的发展带来了全新的机遇。信息生成和信息合成。信息生成:生成直接满足用户需求的定制内容,提供即时响应。信息合成:利用生成式AI的能力来集成和重组现有信息,提供接地气(?原词是grounded)的响应并减轻模型幻觉等问题,适用于需要精确度和外部知识的场景。
2025-02-27 17:19:26
1469
1
原创 基于《From Matching to Generation: A Survey on Generative Information Retrieval》的生成式检索(GR)技术调研
最初,LLMs基于统计学和神经网络的语言模型,通过在大规模文本语料库上进行预训练,学习了语言的深层语义特征,大大提高了文本理解能力。生成式语言模型,特别是GPT系列,通过模型规模和参数数量的增加,显著提升了文本生成和理解的能力。LLMs主要分为两类:编码器-解码器模型和仅解码器模型。编码器-解码器模型(如T5和BART)将输入文本转化为向量表示,通过解码器基于这些表示生成输出文本,处理NLP任务时将其视为文本到文本的转换问题。
2025-02-21 10:05:12
1800
原创 NQD(Natural Questions Dataset)自然问答数据集简介
一组数据由 一个问题、谷歌搜索引擎前五个搜索结果中的维基百科页面、一个短回答、一个长回答 四部分组成,如果页面不包含问题答案,则长短回答标记为NULL。短回答是一个或多个实体,长回答大多是段落(占73%),其余的包括表格(19%)、表格行(1%)、列表(3%)或列表项(3%)。公开发布的版本包括307,373个带有单一标注的训练样本,7,830个带有5-way标注的开发数据样本,以及7,842个作为测试数据的5-way标注样本。“如果你使用我们的数据集发表了论文,请将论文的URL发送到。
2025-02-10 17:10:20
306
原创 RAG技术调研
对的学习笔记RAG:Retrieval-Augmented Generation 检索增强生成RAG本质:让模型获取正确的Context(上下文),利用ICL (In Context Learning)的能力,输出正确的响应。
2024-12-31 09:47:05
1784
原创 论文阅读笔记:《Exploring False Hard Negative Sample in Cross-DomainRecommendation》
推荐中的负采样旨在为稀疏的用户-项目交互捕获信息丰富的负样本,以提高推荐性能。传统的负采样方法除了选择默认的随机样本外,还倾向于选择强负样本。然而,这些强负样本采样方法通常与假性强负样本(FHNS)作斗争,当用户与物品的交互尚未被观察到,就被选为负样本时,就会发生这种情况,而用户一旦接触到这个物品就会与它进行实际交互。这种FHNS问题可能会严重混淆模型训练,而大多数传统的硬负抽样方法并没有系统地探索和区分FHNS和HNS。
2024-08-10 08:35:41
565
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人