Yanc_L-优快云博客

原创【论文阅读】RPO: Retrieval Preference Optimization for Robust Retrieval-AugmentedGeneration

当检索到的非参数知识与内部记忆的知识发生冲突时，导致知识冲突和生成文本质量下降。

2025-01-30 11:29:43 1090 1

原创【论文阅读】RAG-Reward: Optimizing RAG with Reward Modeling and RLHF

实验中设置N=16，初始策略模型为Llama-3.2-3B-Instruct和Mistral-7B-Instruct-v0.1，微调学习率为5e-6，训练1个epoch。：奖励模型通过偏好数据集进行训练，该数据集由多个候选响应对组成，每个对包含一个被选中的响应和一个被拒绝的响应。通过这些方法，RAG-Reward数据集确保了标注的高质量和一致性，为后续的奖励建模和强化学习提供了可靠的基础。：通过比较人类评估者和奖励模型的评估结果来评估一致性，以确保奖励模型的评估结果与人类偏好一致。

2025-01-25 21:59:47 1552 1

原创【论文阅读】GEC-RAG: Improving Generative Error Correctionvia Retrieval-Augmented Generation for Automati

词频表示词语在文档中出现的频率，而逆文档频率则表示词语在整个文档集合中的罕见程度。具体来说，在实验的第三种场景中，研究者通过使用完整的CommonVoice数据集扩大了检索器的数据库，包括所有标记为“已验证”且未被用于训练、开发或测试集的音频文件。实验结果表明，相对于基线ASR系统和使用vanilla GPT的ASR系统，开发集上的错误减少了67%，测试集上的错误减少了82%。通过这两个过程，GEC-RAG方法能够有效地利用知识库中的相关信息来纠正ASR系统的错误，从而提高整体转录的准确性。

2025-01-24 22:36:41 885 1

原创【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

此外，DeepSeek-R1-Zero在MATH-500上的得分为95.9%，在GPQA Diamond上的得分为73.3%，在LiveCodeBench上的得分为50.0%。：DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%，超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCodeBench上的得分为57.2%。

2025-01-21 22:45:53 3872 1

原创【论文阅读】Beyond Text: Optimizing RAG with Multimodal Inputs for IndustrialApplications

这篇论文提出了将多模态模型集成到RAG系统中，以解决工业领域的问题。具体来说，图像摘要：使用多模态LLM将图像总结为文本，然后使用文本嵌入模型进行嵌入，存储在向量存储中进行相似性搜索。 4. 答案生成：使用GPT-4V和LLaVA进行答案生成，并评估两种图像处理策略的性能。单模态与多模态RAG的比较：多模态RAG在使用图像摘要时表现略优于纯文本RAG，但差异较小。图像检索的挑战性较大，尤其是与文本检索相比。 2. 黄金标准上下文的提示：在使用黄金标准上下文时，结合文本和图像的回

2025-01-20 23:23:14 613 2

原创【论文阅读】AUTO-RAG: AUTONOMOUS RETRIEVAL-AUGMENTEDGENERATION FOR LARGE LANGUAGE MODELS

通过自动合成基于推理的决策指令，Auto-RAG能够在不需要人工干预的情况下，有效地进行迭代检索，并在多个基准数据集上取得了优异的性能。例如，在NQ数据集上，Auto-RAG的EM得分为37.9，而在2Wiki数据集上的F1得分为48.9。：实验结果表明，经过训练的Auto-RAG在解决复杂问题上的效果优于仅使用少量提示的方法，且零样本查询重写方法生成的查询更加灵活和多样。：为了赋予LLMs在迭代检索中进行自主决策的能力，作者开发了一种自动合成基于推理的决策指令的方法，并对最新的开源LLMs进行了微调。

2025-01-19 21:56:01 706 2

原创 vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

3卡，tensor_parallel_size=3，tensor并行的数量一定要能被attentionheads整除。4卡，tensor_parallel_size=4，推理速度4s。双卡v10032G部署结果如下，推理时长16s。

2025-01-19 21:10:54 1378

原创【环境问题】pycharm远程服务器文件路径问题

忘记修改Mapping中的映射地址导致upload文件后文件去到默认的tmp文件夹。

2024-11-01 17:32:33 219

原创【环境问题】pycharm偶尔push代码超时

pycharm push代码出现偶尔超时push失败，有使用代理。

2024-10-30 20:55:59 263

原创【论文阅读】FUNNELRAG：一个从粗到精的逐级检索范式

合并的条件是新聚类c_new的大小（即包含的文档数量）加上要合并的聚类c的大小不超过最大聚类大小S。如果满足条件，我们就将聚类c合并到c_new中，将新聚类c_new添加到聚类集合C中，并从聚类集合C中移除聚类c，●指标，AR主要是检索指标，可能会高估检索信息的有用性，因为它机械地衡量检索信息是否包含答案字符串，即使检索信息没有传达准确的含义。● 调参，为了实现负载均衡和提高检索准确性，需要调整一些超参数，例如最大集群大小S，以及每个阶段之间需要仔细协作的数据流量，例如每个阶段检索到的单元数量。

2024-10-28 22:34:32 1417 1

原创【环境搭建】远程服务器搭建ElasticSearch

2、安装过程中没有出现设置账号密码，但请求时需要鉴权，可以关闭鉴权配置。1、切换为非root用户，su 新用户名，否则ES无法启动。通过python创建es对象，并且进行bm25检索。1. 研究下本地kibana怎么连接远程ES。服务器平台：AutoDL。

2024-10-10 17:41:23 780

原创【环境搭建】MAC M1安装ElasticSearch

安装完成，打开http://localhost:5601。浏览器输入 127.0.0.1:9200。出现报错，打开安全与隐私，允许安装。，下载mac m1对应版本的es。

2024-10-10 15:14:58 1133

原创【论文阅读】BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation

这篇论文的研究背景主要聚焦于中的两个关键问题：在处理复杂任务输入时，传统的检索方法往往难以捕捉到所有相关信息，从而导致不完整的检索结果。这是因为复杂查询可能缺少一些关键词，限制了检索文档的质量。检索到的知识常常包含无关或误导性信息，这会降低大语言模型（LLM）的生成性能，导致不准确的输出。为了解决这些问题，作者提出了一个新框架，通过结合内部和外部知识的查询生成增强技术，改善复杂查询的检索质量，并通过一个新的知识过滤模块来剔除不相关的知识，从而提升模型性能。

2024-10-02 19:21:30 811 1

原创【论文阅读】MEDICAL GRAPH RAG: TOWARDS SAFE MEDICAL LARGE LANGUAGE MODEL VIA

，提取独立的命题，并基于这些命题进行更精确的分块。通过多层次的图结构和检索策略，成功解决了 LLM 在处理复杂医学问题时的精确性、安全性和可靠性问题，未来可以探索该框架在更多领域和实时应用中的潜力，进一步推动医学领域 LLM 的发展和应用。三层结构的医学图谱：从用户提供的文档中提取实体，将其链接到医学书籍和文献中的知识，再进一步连接到权威的医学术语系统（如UMLS）为了应对这些挑战，本文提出了一种。该方法通过图结构和LLM结合，旨在提升LLM在医学领域中的表现，生成基于证据的响应，增强其安全性和可靠性。

2024-09-30 17:10:08 1311 1

原创【论文阅读】Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense R

git地址：1 研究背景：在有限计算资源的情况下如何使用较小的语言模型（LLM）来回答简单推理问题问题。

2024-09-28 11:52:37 601 1

原创【论文阅读】Benchmarking Retrieval-Augmented Generation for Medicine

在PubMedQA*和BioASQ-Y/N数据集中，模型的准确率随片段中关键信息位置的变化呈现先下降后上升的U型变化，U-shaped decreasing-then-increasing pattern，这暗示在未来的医学RAG研究中安排片段位置的重要性。对于数据隐私敏感的高风险场景，Mixtral等开源模型是不错的选择。：当关键信息出现在检索片段的中间时，MEDRAG的表现最差，这被称为“lost-in-the middle”，表明信息的位置对模型的回答能力有很大影响。

2024-09-18 17:37:39 1302 1

原创【论文阅读】W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering

论文代码：https://github.com/jmnian/weak_label_f or_rag。

2024-09-15 00:31:34 785 1

原创【论文阅读】Fact Finder - Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge G

知识图谱(Knowledge Graphs, KGs)是提高LLM中事实正确性的一种很有效的方法，尤其是在生命科学这些图谱发展比较成熟的领域。通过将药物、疾病和基因等实体以及它们之间的关系组织成一个结构化的网络，知识库为LLM提供了有用的额外背景，以便进行精确和相关的信息检索。本文构建了一个混合问答系统-FactFinder，通过结合KG和LLM来对专业领域的问题进行精准回答。本文的3个贡献：1、结合KG和LLM构建FactFinder问答系统。

2024-08-15 00:25:11 1194

原创【学习记录】关于向量模型中CLS pooling的思考

向量模型通常是基于BERT架构，Input会在句首加上一个[CLS]标签， CLS是classification的缩写，而CLS的输出能表征整个句子的含义，用于文本分类等下游任务。）后，CLS很好地融合了整个句子的语义信息，可以理解为，将整个句子的语义信息都“平均”到了CLS上，因此CLS能够比较好地表征整个句子的语义。除了CLS外，也有pooling方法是通过直接average整个最后一层的embedding实现的。

2024-08-13 21:50:35 556

原创【论文阅读】RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

论文地址：https://arxiv.org/abs/2408.01262工具地址：https://github.com/gomate-community/rageval。

2024-08-11 23:11:33 1206 1

原创【论文阅读】Corpus-Steered Query Expansion with Large Language Models

通过LLM做query expansion是一种有效提升检索准确率的方法，但是这种做法带来的挑战是，LLM并不具备垂直领域相关的知识，如果让LLM基于自身知识做query扩写，会导致幻觉或者引入过时的信息。这篇文章结合KEQE(Knowledge Empowered Query Expansion)和PRF(Pseudo Relevance Feedback)做了进一步优化，集二者之长，提出了一种新的定向query改写的方式。

2024-08-07 00:15:53 848 1

原创【论文阅读】Searching for Best Practices in Retrieval-Augmented Generation

这篇论文对RAG的整个workflow以及各个模块进行了非常详细的讨论，甚至对各个模块的方法都做了实验对比，从而来找到RAG的最佳实践。整个阅读下来获益良多，对RAG的很多有了更系统性的认识，同时感慨下RAG的技术栈还是很广的，每个环节都有可以深入学习的地方。总的来说，文章有3个核心贡献点：1、探索了RAG各个组件的最佳配置2、提出RAG评估框架和评估数据集3、提出“retrieval as generation”, 提升图文问答能力，最后这点是一个比较novel的观点。

2024-08-05 21:52:42 1848 1

原创【论文阅读】Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

LC性能更好（LCM能力一直在持续提升），而RAG的优势在于低成本。为了兼顾低成本和性能，论文提出了一个trade-off方案“self-route“，由模型自身决定RAG还是LC。在保持相当于LC的性能前提下，self-route方法降低成本（65% for Gemini-1.5-pro，39% for GPT-4O）

2024-08-03 12:17:47 1164 1

原创【实践总结】vllm多卡推理

多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境：2* A100 40G。模型：qwen2-7B。

2024-07-28 20:41:51 7205 9

原创【bug解决】chatglm3推理 ValueError: too many values to unpack (expected 2)

chatglm3推理报错：too many values to unpack (expected 2)原因是transformers版本过高，修改为transformers==4.41.2。

2024-07-14 21:07:45 960 1

原创【论文阅读】Seven Failure Points When Engineering a Retrieval Augmented Generation System

论文从软件工程的角度，通过对3个case study的研究，总结出rag的7个故障点。

2024-07-13 12:08:24 1054 2

原创【论文阅读】RAFT: Adapting Language Model to Domain Specific RAG

这篇论文主要是研究如何提升RAG中pre-trained LLM在垂域知识中的开卷考试的能力，提出了一种名为“RAFT”的训练范式。RAG的一个挑战在于，检索内容中同时包含golden document（正确的文档）和distractor documents（相关但非正确的混淆文档）时，大模型可能会从distractor document中抽取出错误回答。RAFT通过构造COT类型的QA对数据集来微调模型，从而提升大模型的推理能力。

2024-07-02 21:25:27 639 1

原创【bug解决】vllm部署qwen

首次尝试vllm部署qwen遇到的一些问题。

2024-06-23 23:41:49 1722

原创【bug解决】AutoDL上streamlit部署LLM，Network URL无法访问

通过本地访问Network URL，长时间无响应后请求失败。且无法从本地ping通该ip。尝试了github上诸多方法均无效后，怀疑是服务器无独立公网IP导致。2、启动streamlit服务时，设置端口为127.0.0.1，端口为6006。执行streamlit run xx.py后的得到Network URL,3、打开链接成功请求到streamlit服务，开始愉快地对话吧～1、打开自定义服务，根据对应操作系统进行配置。通过查看AutoDL官方文档，

2024-06-20 00:15:04 1237

原创【bug解决】llama3微调bug解决

infnaninf。

2024-06-19 02:03:38 1638

原创【bug解决】deepspeed zero3 pretrain alpaca

找到代码中的low_cpu_mem_usage=True改为False。

2024-04-17 22:37:15 280 1

原创【bug解决】huggingface-cli下载模型到cache

通过huggingface-cli下载模型，cache占用高。

2024-04-08 21:16:27 567

原创【bug解决】Lora微调chatglm6b出现step10后loss持续为0

lora微调过程中出现loss持续为0。

2024-04-07 21:14:55 984 1

qq_41502855的博客