自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 【论文阅读】RPO: Retrieval Preference Optimization for Robust Retrieval-AugmentedGeneration

当检索到的非参数知识与内部记忆的知识发生冲突时,导致知识冲突和生成文本质量下降。

2025-01-30 11:29:43 1090 1

原创 【论文阅读】RAG-Reward: Optimizing RAG with Reward Modeling and RLHF

实验中设置N=16,初始策略模型为Llama-3.2-3B-Instruct和Mistral-7B-Instruct-v0.1,微调学习率为5e-6,训练1个epoch。:奖励模型通过偏好数据集进行训练,该数据集由多个候选响应对组成,每个对包含一个被选中的响应和一个被拒绝的响应。通过这些方法,RAG-Reward数据集确保了标注的高质量和一致性,为后续的奖励建模和强化学习提供了可靠的基础。:通过比较人类评估者和奖励模型的评估结果来评估一致性,以确保奖励模型的评估结果与人类偏好一致。

2025-01-25 21:59:47 1552 1

原创 【论文阅读】GEC-RAG: Improving Generative Error Correctionvia Retrieval-Augmented Generation for Automati

词频表示词语在文档中出现的频率,而逆文档频率则表示词语在整个文档集合中的罕见程度。具体来说,在实验的第三种场景中,研究者通过使用完整的CommonVoice数据集扩大了检索器的数据库,包括所有标记为“已验证”且未被用于训练、开发或测试集的音频文件。实验结果表明,相对于基线ASR系统和使用vanilla GPT的ASR系统,开发集上的错误减少了67%,测试集上的错误减少了82%。通过这两个过程,GEC-RAG方法能够有效地利用知识库中的相关信息来纠正ASR系统的错误,从而提高整体转录的准确性。

2025-01-24 22:36:41 885 1

原创 【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

此外,DeepSeek-R1-Zero在MATH-500上的得分为95.9%,在GPQA Diamond上的得分为73.3%,在LiveCodeBench上的得分为50.0%。:DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%,超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%,在MATH-500上的得分为94.3%,在LiveCodeBench上的得分为57.2%。

2025-01-21 22:45:53 3872 1

原创 【论文阅读】Beyond Text: Optimizing RAG with Multimodal Inputs for IndustrialApplications

这篇论文提出了将多模态模型集成到RAG系统中,以解决工业领域的问题。具体来说,图像摘要:使用多模态LLM将图像总结为文本,然后使用文本嵌入模型进行嵌入,存储在向量存储中进行相似性搜索。 4. 答案生成:使用GPT-4V和LLaVA进行答案生成,并评估两种图像处理策略的性能。单模态与多模态RAG的比较:多模态RAG在使用图像摘要时表现略优于纯文本RAG,但差异较小。图像检索的挑战性较大,尤其是与文本检索相比。 2. 黄金标准上下文的提示:在使用黄金标准上下文时,结合文本和图像的回

2025-01-20 23:23:14 613 2

原创 【论文阅读】AUTO-RAG: AUTONOMOUS RETRIEVAL-AUGMENTEDGENERATION FOR LARGE LANGUAGE MODELS

通过自动合成基于推理的决策指令,Auto-RAG能够在不需要人工干预的情况下,有效地进行迭代检索,并在多个基准数据集上取得了优异的性能。例如,在NQ数据集上,Auto-RAG的EM得分为37.9,而在2Wiki数据集上的F1得分为48.9。:实验结果表明,经过训练的Auto-RAG在解决复杂问题上的效果优于仅使用少量提示的方法,且零样本查询重写方法生成的查询更加灵活和多样。:为了赋予LLMs在迭代检索中进行自主决策的能力,作者开发了一种自动合成基于推理的决策指令的方法,并对最新的开源LLMs进行了微调。

2025-01-19 21:56:01 706 2

原创 vllm多卡部署Qwen2.5-72B-Instruct-GPTQ-Int4

3卡,tensor_parallel_size=3,tensor并行的数量一定要能被attentionheads整除。4卡,tensor_parallel_size=4,推理速度4s。双卡v10032G部署结果如下,推理时长16s。

2025-01-19 21:10:54 1378

原创 【环境问题】pycharm远程服务器文件路径问题

忘记修改Mapping中的映射地址导致upload文件后文件去到默认的tmp文件夹。

2024-11-01 17:32:33 219

原创 【环境问题】pycharm偶尔push代码超时

pycharm push代码出现偶尔超时push失败,有使用代理。

2024-10-30 20:55:59 263

原创 【论文阅读】FUNNELRAG:一个从粗到精的逐级检索范式

合并的条件是新聚类c_new的大小(即包含的文档数量)加上要合并的聚类c的大小不超过最大聚类大小S。如果满足条件,我们就将聚类c合并到c_new中,将新聚类c_new添加到聚类集合C中,并从聚类集合C中移除聚类c,●指标,AR主要是检索指标,可能会高估检索信息的有用性,因为它机械地衡量检索信息是否包含答案字符串,即使检索信息没有传达准确的含义。● 调参,为了实现负载均衡和提高检索准确性,需要调整一些超参数,例如最大集群大小S,以及每个阶段之间需要仔细协作的数据流量,例如每个阶段检索到的单元数量。

2024-10-28 22:34:32 1417 1

原创 【环境搭建】远程服务器搭建ElasticSearch

2、安装过程中没有出现设置账号密码,但请求时需要鉴权,可以关闭鉴权配置。1、切换为非root用户,su 新用户名,否则ES无法启动。通过python创建es对象,并且进行bm25检索。1. 研究下本地kibana怎么连接远程ES。服务器平台:AutoDL。

2024-10-10 17:41:23 780

原创 【环境搭建】MAC M1安装ElasticSearch

安装完成,打开http://localhost:5601。浏览器输入 127.0.0.1:9200。出现报错,打开安全与隐私,允许安装。,下载mac m1对应版本的es。

2024-10-10 15:14:58 1133

原创 【论文阅读】BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation

这篇论文的研究背景主要聚焦于中的两个关键问题:在处理复杂任务输入时,传统的检索方法往往难以捕捉到所有相关信息,从而导致不完整的检索结果。这是因为复杂查询可能缺少一些关键词,限制了检索文档的质量。检索到的知识常常包含无关或误导性信息,这会降低大语言模型(LLM)的生成性能,导致不准确的输出。为了解决这些问题,作者提出了一个新框架,通过结合内部和外部知识的查询生成增强技术,改善复杂查询的检索质量,并通过一个新的知识过滤模块来剔除不相关的知识,从而提升模型性能。

2024-10-02 19:21:30 811 1

原创 【论文阅读】MEDICAL GRAPH RAG: TOWARDS SAFE MEDICAL LARGE LANGUAGE MODEL VIA

,提取独立的命题,并基于这些命题进行更精确的分块。通过多层次的图结构和检索策略,成功解决了 LLM 在处理复杂医学问题时的精确性、安全性和可靠性问题,未来可以探索该框架在更多领域和实时应用中的潜力,进一步推动医学领域 LLM 的发展和应用。三层结构的医学图谱:从用户提供的文档中提取实体,将其链接到医学书籍和文献中的知识,再进一步连接到权威的医学术语系统(如UMLS)为了应对这些挑战,本文提出了一种。该方法通过图结构和LLM结合,旨在提升LLM在医学领域中的表现,生成基于证据的响应,增强其安全性和可靠性。

2024-09-30 17:10:08 1311 1

原创 【论文阅读】Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense R

git地址:1 研究背景:在有限计算资源的情况下如何使用较小的语言模型(LLM)来回答简单推理问题问题。

2024-09-28 11:52:37 601 1

原创 【论文阅读】Benchmarking Retrieval-Augmented Generation for Medicine

在PubMedQA*和BioASQ-Y/N数据集中,模型的准确率随片段中关键信息位置的变化呈现先下降后上升的U型变化,U-shaped decreasing-then-increasing pattern,这暗示在未来的医学RAG研究中安排片段位置的重要性。对于数据隐私敏感的高风险场景,Mixtral等开源模型是不错的选择。:当关键信息出现在检索片段的中间时,MEDRAG的表现最差,这被称为“lost-in-the middle”,表明信息的位置对模型的回答能力有很大影响。

2024-09-18 17:37:39 1302 1

原创 【论文阅读】W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering

论文代码:https://github.com/jmnian/weak_label_f or_rag。

2024-09-15 00:31:34 785 1

原创 【论文阅读】Fact Finder - Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge G

知识图谱(Knowledge Graphs, KGs)是提高LLM中事实正确性的一种很有效的方法,尤其是在生命科学这些图谱发展比较成熟的领域。通过将药物、疾病和基因等实体以及它们之间的关系组织成一个结构化的网络,知识库为LLM提供了有用的额外背景,以便进行精确和相关的信息检索。本文构建了一个混合问答系统-FactFinder,通过结合KG和LLM来对专业领域的问题进行精准回答。本文的3个贡献:1、结合KG和LLM构建FactFinder问答系统。

2024-08-15 00:25:11 1194

原创 【学习记录】关于向量模型中CLS pooling的思考

向量模型通常是基于BERT架构 ,Input会在句首加上一个[CLS]标签, CLS是classification的缩写,而CLS的输出能表征整个句子的含义,用于文本分类等下游任务。)后,CLS很好地融合了整个句子的语义信息,可以理解为,将整个句子的语义信息都“平均”到了CLS上,因此CLS能够比较好地表征整个句子的语义。除了CLS外,也有pooling方法是通过直接average整个最后一层的embedding实现的。

2024-08-13 21:50:35 556

原创 【论文阅读】RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

​论文地址:https://arxiv.org/abs/2408.01262工具地址:https://github.com/gomate-community/rageval。

2024-08-11 23:11:33 1206 1

原创 【论文阅读】Corpus-Steered Query Expansion with Large Language Models

通过LLM做query expansion是一种有效提升检索准确率的方法,但是这种做法带来的挑战是,LLM并不具备垂直领域相关的知识,如果让LLM基于自身知识做query扩写,会导致幻觉或者引入过时的信息。这篇文章结合KEQE(Knowledge Empowered Query Expansion)和PRF(Pseudo Relevance Feedback)做了进一步优化,集二者之长,提出了一种新的定向query改写的方式。

2024-08-07 00:15:53 848 1

原创 【论文阅读】Searching for Best Practices in Retrieval-Augmented Generation

这篇论文对RAG的整个workflow以及各个模块进行了非常详细的讨论,甚至对各个模块的方法都做了实验对比,从而来找到RAG的最佳实践。整个阅读下来获益良多,对RAG的很多有了更系统性的认识,同时感慨下RAG的技术栈还是很广的,每个环节都有可以深入学习的地方。总的来说,文章有3个核心贡献点:1、探索了RAG各个组件的最佳配置2、提出RAG评估框架和评估数据集3、提出“retrieval as generation”, 提升图文问答能力,最后这点是一个比较novel的观点。

2024-08-05 21:52:42 1848 1

原创 【论文阅读】Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

LC性能更好(LCM能力一直在持续提升),而RAG的优势在于低成本。为了兼顾低成本和性能,论文提出了一个trade-off方案“self-route“,由模型自身决定RAG还是LC。在保持相当于LC的性能前提下,self-route方法降低成本(65% for Gemini-1.5-pro,39% for GPT-4O)

2024-08-03 12:17:47 1164 1

原创 【实践总结】vllm多卡推理

多卡推理,设置tensor_parallel_size=2,服务:Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境:2* A100 40G。模型:qwen2-7B。

2024-07-28 20:41:51 7205 9

原创 【bug解决】chatglm3推理 ValueError: too many values to unpack (expected 2)

chatglm3推理报错:too many values to unpack (expected 2)原因是transformers版本过高,修改为transformers==4.41.2。

2024-07-14 21:07:45 960 1

原创 【论文阅读】Seven Failure Points When Engineering a Retrieval Augmented Generation System

论文从软件工程的角度,通过对3个case study的研究,总结出rag的7个故障点。

2024-07-13 12:08:24 1054 2

原创 【论文阅读】RAFT: Adapting Language Model to Domain Specific RAG

这篇论文主要是研究如何提升RAG中pre-trained LLM在垂域知识中的开卷考试的能力,提出了一种名为“RAFT”的训练范式。RAG的一个挑战在于,检索内容中同时包含golden document(正确的文档)和distractor documents(相关但非正确的混淆文档)时,大模型可能会从distractor document中抽取出错误回答。RAFT通过构造COT类型的QA对数据集来微调模型,从而提升大模型的推理能力。

2024-07-02 21:25:27 639 1

原创 【bug解决】vllm部署qwen

首次尝试vllm部署qwen遇到的一些问题。

2024-06-23 23:41:49 1722

原创 【bug解决】AutoDL上streamlit部署LLM,Network URL无法访问

通过本地访问Network URL,长时间无响应后请求失败。且无法从本地ping通该ip。尝试了github上诸多方法均无效后,怀疑是服务器无独立公网IP导致。2、启动streamlit服务时,设置端口为127.0.0.1,端口为6006。执行streamlit run xx.py后的得到Network URL,3、打开链接成功请求到streamlit服务,开始愉快地对话吧~1、打开自定义服务,根据对应操作系统进行配置。通过查看AutoDL官方文档,

2024-06-20 00:15:04 1237

原创 【bug解决】llama3微调bug解决

infnaninf。

2024-06-19 02:03:38 1638

原创 【bug解决】deepspeed zero3 pretrain alpaca

找到代码中的low_cpu_mem_usage=True改为False。

2024-04-17 22:37:15 280 1

原创 【bug解决】huggingface-cli下载模型到cache

通过huggingface-cli下载模型,cache占用高。

2024-04-08 21:16:27 567

原创 【bug解决】Lora微调chatglm6b出现step10后loss持续为0

lora微调过程中出现loss持续为0。

2024-04-07 21:14:55 984 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除