
强化学习
文章平均质量分 85
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
####好好好#####强化学习白话解释
强化学习是机器学习里面非常重要的一个派别。智能体 (agent) 会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。在一系列教学文章里,我们可以了解不同的架构,来解决强化学习的问题。Q学习,深度Q网络 (DQN) ,策略梯度(Policy Gradients) ,演员-评论家 (Actor-Critic) ,以及近端策略优化 (PPO) 都是将要涉及的算法。这是本系列的第一篇文章,你可以抓住的重点有:· 什么是强化学习,以及为什么奖励最重要· 强化学习的三种方式转载 2022-03-04 10:12:26 · 606 阅读 · 0 评论 -
强化学习核心概念区分
1. 区分强化学习/有监督学习/无监督学习- 这是三种不同的训练方式,核心区别在于loss的设计。- 三者可用于同一 task,就像锤子和砍刀都可以用于砸钉子。- task 选用哪一种工具,取决于获取 loss 所需数据的性价比。比如风格转移,使用Discriminator 判断 sample 是否属于目标域,显然优于一一标记数据集后进行有监督学习。2. 区分 Return(s,a) 和 reward(s,a)- reward(s,a) 是 environment 在状态s下,对行为a的单步奖励原创 2022-03-03 14:34:39 · 1050 阅读 · 0 评论 -
####好好#####利用各种信息作为因子的股票价格预测模型研究过程
完整架构概述在这篇文章中,我将创建一个预测股票价格变动的完整过程。我们将使用生成对抗网络(GAN)与LSTM(一种循环神经网络)作为生成器,使用卷积神经网络CNN作为鉴别器。我们使用LSTM的原因很明显,我们正在尝试预测时间序列数据。为什么我们使用GAN,特别是卷积神经网络(CNN)作为鉴别器呢?这是一个很好的问题:稍后会有特别的部分。当然,我们将详细介绍每个步骤,但最困难的部分是GAN:成功训练GAN的非常棘手的部分是获得正确的超参数集。出于这个原因,我们将使用贝叶斯优化(还有高斯过程)和深度强化学习原创 2022-03-02 15:47:05 · 1896 阅读 · 2 评论 -
###好好好####RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色
目录【导读】本文全面系统性梳理介绍了强化学习用于发掘GAN在NLP领域的潜力,请大家阅读。1. 基础:文本生成模型的标准框架2. 问题:GAN为何不能直接用于文本生成2.1. GAN基础知识2.2. GAN面对离散型数据时的困境(啥是离散型数据?)3. 过渡方案:对于GAN的直接改进用于文本生成3.1. Wasserstein-divergence,额外的礼物3.2. Gumbel-softmax,模拟Sampling的softmax4. RL在GAN文本生成中所扮演的作转载 2020-12-23 15:00:36 · 598 阅读 · 0 评论 -
#####好好好#####GAN 在文本生成上的一些体会
先抛出我的结论:SeqGAN 这一框架下的 GAN-based 文本生成模型,work 很大程度上是 training trick 的堆砌,并不适合工程应用,但依旧值得探索,或者蹭热点发 Paper。这段时间做用 GAN 做文本生成还是蛮多的,这里指的是 SeqGAN 这一框架,其简要特点如下:RNN-based Generator + Classifier-based Discrmi...转载 2019-05-27 19:56:56 · 1543 阅读 · 0 评论 -
####好好好#####3【论文阅读】Deep Adversarial Subspace Clustering
导读: 本文为CVPR2018论文《Deep Adversarial Subspace Clustering》的阅读总结。目的是做聚类,方法是DASC=DSC(Deep Subspace Clustering)+GAN(Generative Adversarial Networks)。本文从以下四个方面来对论文做个简要整理: 背景:简要介绍与本文密切相关的基础原理,DSC,GAN。...转载 2019-05-20 15:37:33 · 553 阅读 · 0 评论 -
###好好好#####论文泛读·Adversarial Learning for Neural Dialogue Generation
导读 这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监督的问题。 其主体思想就是将整体任务划分到两个子系统上,一个是生成器(generative model),利用seq2seq式的模型以上文的句子作为输入,输出对应的对话语句;另一个则是一个判别器(di...转载 2019-05-20 15:21:10 · 314 阅读 · 0 评论 -
李纪为:用于对话生成的深度强化学习
译者按:本文第一作者 Jiwei Li (李纪为) 是斯坦福的 Ph.D ,是一位在神经网络和 NLP 领域非常高产的作者。在之前发布的自然语言处理 2012-2016 年顶级会议作者统计中,他以 14 篇顶级会议论文第一作者的数据排名第一。本篇文章刚刚发布,是一篇探索性的文章,文章结合了目前主流的 sequence-to-sequence 模型和强化学习算法,在之前工作的基础上,利用一种 Alp...转载 2019-05-09 11:10:15 · 1337 阅读 · 0 评论 -
####好好好###############Deep Reinforcement Learning for Dialogue Generation 论文阅读
1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型。但传统的seq2seq存在很多问题。本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”。为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数。具体见A Diversity-Promoti...转载 2019-05-08 09:54:27 · 417 阅读 · 0 评论 -
GAN+文本生成:让文本以假乱真
论文一、《Generative Adversarial Nets》NIPS 20141、模型简述这篇论文是最早提出 GAN 的文章,作者 Ian J. Goodfellow 提出了一种新的对抗过程来评价生成模型的效果。GAN 主要分为两部分:生成模型和判别模型。生成模型的作用是模拟真实数据的分布,判别模型的作用是判断一个样本是真实的样本还是生成的样本,GAN 的目标是训练一个生成模型完...转载 2019-04-26 15:42:10 · 3883 阅读 · 1 评论 -
如何让对抗网络GAN生成更高质量的文本?LeakGAN现身说法:“对抗中,你可能需要一个间谍!”
最初,由于其中的一个缺陷,GANs在文本生成方面无法得到有效的应用。得益于该团队之前发表的SeqGAN,GANs在文本生成上有了可能,不过表现并没有图像生成任务中那么突出。主要问题之一就是,生成器 G 从鉴别器 D 获得的反馈中含有的信息量太少,不足以有效地引导 G 更新、提升文本生成质量,尤其是当文本长度较长的时候。这就引出了下面这个问题:如果让鉴别器反馈更多信息给生成器,是否能够有效地改善...转载 2019-04-26 15:12:25 · 837 阅读 · 0 评论 -
《Relational inductive biases, deep learning, and graph networks》图网络 论文解读
研究背景机器学习界有三个主要学派,符号主义(Symbolicism)、连接主义(Connectionism)、行为主义(Actionism)。符号主义的起源,注重研究知识表达和逻辑推理。经过几十年的研究,目前这一学派的主要成果,一个是贝叶斯因果网络,另一个是知识图谱。贝叶斯因果网络的旗手是 Judea Pearl 教授,2011年的图灵奖获得者。但是据说 2017年 NIPS 学术会议上,老...转载 2019-01-06 16:03:12 · 822 阅读 · 1 评论 -
###haohaohao###【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色
本文转载自:https://mp.weixin.qq.com/s?__biz=MzUzNTA1NTQ3NA==&mid=2247484192&idx=1&sn=55070a51c19535427efe11824140a947&chksm=fa8a1e3dcdfd972bfdbb5f9cc18944e94f28471e7ec49e13d6ace34170013ca24...转载 2018-12-06 17:56:00 · 1402 阅读 · 0 评论 -
深度增强学习综述
本文是对《深度增强学习综述》一文的解读。文章从增强学习谈起,谈到对深度学习的引入,层层递进、简明扼要地从技术层面阐释了深度增强学习的原理和效用。当今世界,科技发展日新月异。即便是业界中人,往往也搞不清同行们的动态。所以,隔三差五需要有人梳理业界的动态。“Deep ReinforcementLearning: An Overview” [1] 这篇论文的作者,梳理了深度学习与增强学习相融合的...转载 2018-10-15 14:01:39 · 3183 阅读 · 0 评论 -
强化学习的历史和学习博客网址
强化学习推荐学习网站:莫凡博客https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ 1.强化学习的历史发展1956年Bellman提出了动态规划方法。 1977年Werbos提出只适应动态规划算法。 1988年sutton提出时间差分算法。 1992年Watkins 提出Q-...转载 2018-10-09 15:22:46 · 1004 阅读 · 0 评论