
强化学习
文章平均质量分 83
讲解Sutton的《强化学习》内容
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
RLHF中的PPO算法原理及其实现
ChatGPT是基于InstructGPT实现的多轮对话生成式大模型。博主在之前的文章中已经介绍过关于)以及关于。那么除了如何训练一个基本的生成式模型外,大模型还需要关注于。在之前的文章中已经介绍了ChatGPT以及最近开源的一些类ChatGPT模型是如何实现对齐的,这里我们也详细介绍一下InstructGPT中进行人类对齐的核心算法——RLHF(人类对齐的强化学习)PPO算法。原创 2023-05-22 20:57:23 · 5417 阅读 · 1 评论 -
论文解读: R3:Reinforced Ranker-Reader for Open-Domain Question Answering
论文解读: R3R^3R3:Reinforced Ranker-Reader for Open-Domain Question Answering 开放领域问答主要目标是从开放的资源中寻找答案,在目前自动问答任务中十分关键。本文是一篇2017年AAAI会议的问答系统,其认为当前大多数的问答都是基于事先提取好的候选文本作为抽取答案的passage,而并不符合实际应用;而在实际中,需要结合信息检索方法来自主地搜索与问题相关的passage并进行答案的抽取,这一过程非常繁琐,且依赖于检索的候选passage的原创 2020-11-11 11:18:49 · 852 阅读 · 1 评论 -
论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning
论文解读:Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning (2018 ACL)简要信息:序号属性值1模型名称Deep Dyna-Q (DDQ)2所属领域问答系统,强化学习3研究内容任务型多轮对话4核心内容Dyna架构,Q学习5GitHub源码https:// github.com/MiuLab/DDQ6论文PDFhtt原创 2021-03-14 23:23:11 · 857 阅读 · 0 评论 -
对话生成的新探索——从模仿学习到逆强化学习
论文解读:Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning 对话生成是一个常见的自然语言处理任务,其在工业界广泛应用与智能客服,闲聊机器人等。现如今主要研究于如何提高对话的质量,多样性。本文则采用先进的技术试图解决这个问题。一、简要信息序号属性值1模型名称DG-AIRL2所属领域自然语言处理3研究内容对话生成4核心内容Dialogue G原创 2020-08-02 16:09:19 · 2063 阅读 · 2 评论 -
强化学习(一):概述
强化学习(一):概述前言: 最近,强化学习非常的火爆,不论在科研界还是工业界,强化学习一直作为一个新兴的领域,在计算机学科范畴内发挥重要的作用。强化学习(Reinforcement Learning),属于一种机器学习架构(范式)。我们知道机器学习一般分为监督和无监督,所谓监督即是否有外在的标准来约束样本,也就是所谓的标签;无监督则是没有标签的样本。强化学习之所以认为是机器学习的一种架构,是...原创 2020-02-29 14:59:13 · 6678 阅读 · 0 评论 -
强化学习(二):贪心策略(ε-greedy & UCB)
强化学习(二):贪心策略(ε-greedy & UCB)夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn 强化学习是当前人工智能比较火爆的研究内容,作为机器学习的一大分支,强化学习主要目标是让智能体学习如何在给定的一个环境状态下做出合适的决策。强化学习相关概念请点击:强化学习(一):概述 强化学习任务中有两个非常重要的概念—...原创 2020-03-10 12:20:31 · 53252 阅读 · 2 评论 -
强化学习(三):有限马尔可夫决策与贝尔曼方程
强化学习(三):有限马尔可夫决策与贝尔曼方程夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn1、有限马尔可夫决策过程 有限马尔可夫决策过程(MDP)是强化学习的主要思想,也是后续多个解决强化学习目标的基本假设。 我们先来回顾一下强化学习的学习过程。强化学习的主体是智能体,与之相互交互的事物称为环境。当ttt时刻智能体所处某一个状...原创 2020-03-16 11:41:27 · 2131 阅读 · 0 评论 -
强化学习(四):基于表格型动态规划算法的强化学习
强化学习(四):基于表格型动态规划算法的强化学习夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn 在有限马尔可夫决策过程中,智能体在某个状态进行决策的过程中,始终满足价值函数和动作函数的贝尔曼方程,事实上,这就是一种动态规划的思想。动态规划即是一种递推表达式,例如对于状态价值的贝尔曼方程,其衡量的是当前状态与所有的下一个可能的状态价值的...原创 2020-03-23 10:27:45 · 1575 阅读 · 0 评论 -
强化学习(五):蒙特卡洛采样方法
强化学习(五):蒙特卡洛采样方法 在强化学习(四)中,我们学习了如何使用动态规划法求解强化学习问题,我们还学习了策略评估和策略改进,以及广义策略迭代(GPI),事实上,动态规划能够很好地收敛到最优值,但是否动态规划就是最好的呢?显然不是。回顾一下动态规划的状态价值函数的贝尔曼方程:vk+1(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvk(s′)]v_{k+1}(s)=\...原创 2020-03-31 23:01:54 · 7985 阅读 · 0 评论 -
强化学习(六):时序差分方法
强化学习(六):时序差分方法 时序差分(TD)方法结合了动态规划与蒙特卡洛的思想,其可以像蒙特卡洛方法一样直接从智能体与环境互动的经验中学习,而不需要知道环境的模型,其又可以像动态规划一样无须等待交互的结果,可以边交互边学习。总的来说,时序差分是基于已得到的其他状态的估计值来更新当前状态的价值函数。如果没有学习动态规划部分,可以浏览博文强化学习(四):基于表格型动态规划算法的强化学习,如果没有...原创 2020-04-06 10:07:32 · 3982 阅读 · 2 评论 -
强化学习(七):n步自举法(多步引导法)
强化学习(七):n步自举法(多步引导法) 在之前,我们知道求解有限马尔可夫决策过程可以通过蒙特卡洛和时序差分来通过与环境多次交互从经验中学习,然而,蒙特卡洛方法在一些不满足分幕式任务或连续型任务上无法获得最终的收益,因此我们引入时序差分方法。时序差分的思想就是将下一时刻的状态价值或下一时刻的状态动作价值作为估计值,用于估计当前状态价值或动作价值。时序差分是一种结合采样和自举的方法,那么一种介于...原创 2020-04-13 17:21:20 · 3493 阅读 · 0 评论 -
强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS
强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS 在基于表格型强化学习方法中,比较常见的方法有动态规划法、蒙特卡洛法,时序差分法,多步引导法等。其中动态规划法是一种基于模型的方法(Model-based),因为它的前提是必须要知道所有状态和动作以及奖励的分布;后面的几种方法则是基于采样的方法,试图让智能体通过与环境交互来获得经验,从经验中推出相关的策略。因此本节对相关内容进行一个简单的总结...原创 2020-04-19 15:32:50 · 1412 阅读 · 0 评论 -
论文解读:A Hierarchical Framework for Relation Extraction with Reinforcement Learning
论文解读:A Hierarchical Framework for Relation Extraction with Reinforcement Learning 关系抽取是一项比较基础的自然语言处理任务,而联合实体和关系抽取则是一种端到端的方法。传统的方法基本上是先通过实体识别再进行关系抽取,但这容易导致误差传播。为了能够有效提高抽取的效果,本文提出一种基于分层的强化学习框架用于关系抽取。一、简要信息序号属性值1模型名称HRL-RE2所属领域自然语言处理3原创 2020-05-30 10:45:40 · 1571 阅读 · 3 评论 -
论文解读:Reinforcement Learning for Relation Classification from Noisy Data
论文解读:Reinforcement Learning for Relation Classification from Noisy Data 本文是一篇以强化学习来解决远程监督关系抽取中噪声的问题。强化学习作为一个比较新的机器学习,能够很好的处理一些半监督类问题,强化学习是一种从经验中学习的方法,通过定义策略、状态、动作以及收益来训练智能体与环境的交互,在游戏博弈等场景中很受欢迎。本文则将其...原创 2020-04-06 16:41:44 · 2482 阅读 · 2 评论