谢秋雨-优快云博客

原创论文阅读笔记《Foundations of GenIR》

本文讨论了现代生成式AI模型对信息访问（information access，简称IA）系统的基本影响。跟传统AI相比，生成式AI的优势在于大规模训练和高级数据建模，它能生成更高质量、更像人话的回答，为IA范式的发展带来了全新的机遇。信息生成和信息合成。信息生成：生成直接满足用户需求的定制内容，提供即时响应。信息合成：利用生成式AI的能力来集成和重组现有信息，提供接地气（？原词是grounded）的响应并减轻模型幻觉等问题，适用于需要精确度和外部知识的场景。

2025-02-27 17:19:26 1469 1

原创基于《From Matching to Generation: A Survey on Generative Information Retrieval》的生成式检索(GR)技术调研

最初，LLMs基于统计学和神经网络的语言模型，通过在大规模文本语料库上进行预训练，学习了语言的深层语义特征，大大提高了文本理解能力。生成式语言模型，特别是GPT系列，通过模型规模和参数数量的增加，显著提升了文本生成和理解的能力。LLMs主要分为两类：编码器-解码器模型和仅解码器模型。编码器-解码器模型（如T5和BART）将输入文本转化为向量表示，通过解码器基于这些表示生成输出文本，处理NLP任务时将其视为文本到文本的转换问题。

2025-02-21 10:05:12 1800

原创 NQD（Natural Questions Dataset）自然问答数据集简介

一组数据由一个问题、谷歌搜索引擎前五个搜索结果中的维基百科页面、一个短回答、一个长回答四部分组成，如果页面不包含问题答案，则长短回答标记为NULL。短回答是一个或多个实体，长回答大多是段落（占73%），其余的包括表格（19%）、表格行（1%）、列表（3%）或列表项（3%）。公开发布的版本包括307,373个带有单一标注的训练样本，7,830个带有5-way标注的开发数据样本，以及7,842个作为测试数据的5-way标注样本。“如果你使用我们的数据集发表了论文，请将论文的URL发送到。

2025-02-10 17:10:20 306

原创 RAG技术调研

对的学习笔记RAG：Retrieval-Augmented Generation 检索增强生成RAG本质：让模型获取正确的Context(上下文)，利用ICL (In Context Learning)的能力，输出正确的响应。

2024-12-31 09:47:05 1784

原创论文阅读笔记：《Exploring False Hard Negative Sample in Cross-DomainRecommendation》

推荐中的负采样旨在为稀疏的用户-项目交互捕获信息丰富的负样本，以提高推荐性能。传统的负采样方法除了选择默认的随机样本外，还倾向于选择强负样本。然而，这些强负样本采样方法通常与假性强负样本(FHNS)作斗争，当用户与物品的交互尚未被观察到，就被选为负样本时，就会发生这种情况，而用户一旦接触到这个物品就会与它进行实际交互。这种FHNS问题可能会严重混淆模型训练，而大多数传统的硬负抽样方法并没有系统地探索和区分FHNS和HNS。

2024-08-10 08:35:41 565 3