RAG检索增强LLM。

最新推荐文章于 2025-12-18 14:23:27 发布

原创最新推荐文章于 2025-12-18 14:23:27 发布 · 115 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

部署运行你感兴趣的模型镜像

RAG 检索增强生成技术详解

RAG（Retrieval-Augmented Generation）是一种结合检索与生成的技术，通过动态检索外部知识库增强大语言模型（LLM）的生成能力。其核心思想是在生成过程中引入实时检索的上下文，解决传统LLM的静态知识局限问题。

RAG 的核心架构

RAG 通常分为检索器（Retriever）和生成器（Generator）两部分。检索器从外部知识库（如维基百科、专业数据库）中提取相关文档，生成器基于检索结果和用户输入生成最终回答。

检索器多采用稠密向量检索（Dense Retrieval），通过预训练模型（如DPR、ANCE）将文档和查询编码为向量，计算余弦相似度排序。生成器通常基于Seq2Seq模型（如BART、T5），以下是一个简化的Python实现框架：

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration

tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", index_name="exact")
model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever)

input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(input_ids=inputs["input_ids"])
print(tokenizer.decode(outputs[0], skip_special_tokens=True))