吴恩达RLHF课程笔记

1.创建偏好数据集

一个prompt输入到LLM后可以有多个回答,对每个回答选择偏好

比如{prompt,answer1,answer2,prefer1}

2.根据这个数据集(偏好数据集),创建reward model,这个model也是一个LLM,并且它是回归模型,返回的是对每个answer的score,loss是最大化winning candidate和losing candidate的score。训练结束后我们输入一个prompt(使用prompt数据集,这个数据集和偏好数据集分布要一致)和对应的answer,会得到一个score,显示的是这个answer有多好(有多符合标记数据的人的偏好)

3.利用这个reward model和强化学习循环调整LLM(通过PPO),还会添加惩罚项

首次运行pipeline的时候使用一个比较小的数据集确定它能用就行

Kl_coeff 是正则项,防止LLM对某些词汇有较高的score从而使产生的answer充满那些词汇 kl loss反应模型有多么偏离最初(应该先升高然后趋于平稳,reward曲线也是,如果没有趋于平稳就说明欠拟合了,如果过早平稳,说明应该减少step或者epoch)

选择合适的指标

sidebyside 可以用pandas把prompt,naïve completion, tuned completion进行可视化对比

RLAIF让AI生成偏好数据集,AutoSxS用AI进行sidebyside评估

<think>好的,用户需要查找吴恩达关于RAG课程笔记总结。首先,我得回忆一下之前提供的引用内容,特别是引用[3]提到的“Knowledge Graphs for RAG -- Query Knowledge Graphs”,这可能就是用户需要的课程笔记之一。用户之前的问题和我的回答中,已经涉及了RAG与知识图谱的结合应用,所以需要确认这些内容是否符合用户的需求。 接下来,需要检查是否有其他相关的引用。引用[1]提到了微调大模型,包括指令微调,而引用[2]和引用[3]都涉及知识图谱在RAG中的应用,尤其是Cypher查询和模式检查。用户明确提到的是RAG课程笔记,因此引用[3]中的内容应该是最相关的。 然后,我应该整理这些信息,分点总结课程的核心内容,比如RAG的基本原理、知识图谱的作用、技术实现步骤以及实际应用案例。同时,需要确保使用正确的中文表达,并遵循格式要求,比如行内数学公式用$...$,独立公式单独成段。此外,生成的相关问题需要与RAG和知识图谱相关,帮助用户进一步探索。 还要注意用户可能需要的细节,比如技术实现中的具体步骤或评估方法,所以在总结时要涵盖这些方面。最后,检查引用是否正确标注,确保每个引用段落末尾有对应的标识符,如[^3]。</think>根据吴恩达RAG课程相关内容,我为您整理以下核心知识点总结: ### 一、RAG基础架构 1. **核心公式**:$$ P(answer|query) = \sum_{doc}P(retrieve(doc)|query) \cdot P(generate(answer)|doc,query) $$ 通过检索增强生成提升大模型事实准确性[^3] 2. **关键组件**: - 检索器:基于向量相似度匹配文档 - 生成器:大语言模型生成最终回答 - 知识图谱:用于结构化知识存储与推理 ### 二、知识图谱集成方案 1. **Cypher查询实现**: ```python # 查询知识图谱中的节点总数 cypher = """ MATCH (n) RETURN count(n) """ kg.query(cypher)[^3] ``` 2. **模式检查机制**: ```python kg.refresh_schema() print(textwrap.fill(kg.schema, 60)) # 结构化展示图谱模式[^2] ``` ### 三、技术实现步骤 1. **数据准备阶段**: - 实体识别与关系抽取 - 构建三元组存储:$(head, relation, tail)$ - 生成向量索引 2. **混合检索策略**: - 向量检索:$cos\_similarity(query\_vec, doc\_vec)$ - 图遍历检索:通过Cypher实现多跳查询 ### 四、评估与优化 1. **评估指标**: - 检索召回率:$Recall@k = \frac{相关文档数}{总相关文档数}$ - 生成准确性:人工评估与自动指标结合 2. **典型应用场景**: - 金融领域风险分析 - 医疗知识问答系统 - 法律条款检索
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值