
学习笔记
wield_jjz
这个作者很懒,什么都没留下…
展开
-
DCIC-早高峰共享单车潮汐点的群智优化
早高峰共享单车潮汐点的群智优化打卡task01遇到的问题环境问题win10系统下,基于anaconda3安装python库hnswlib遇到报错:试过网上多种方法无果,自己摸索成功。解决方法:安装Visual Studio 2019下载hnswlib源码,到安装目录下解压在anaconda的终端进入到安装目录输入:python setup.py install --compiler=msvc安装成功!...原创 2021-02-19 23:14:08 · 347 阅读 · 3 评论 -
深度强化学习-使用Policy-Based方法实现Pendulum-v0-笔记(九)
使用Policy-Based方法实现Pendulum-v0一级目录二级目录三级目录一级目录二级目录三级目录原创 2020-11-08 09:59:41 · 618 阅读 · 0 评论 -
深度强化学习-DDPG-笔记(八)
深度确定性策略梯度 DDPG离散动作 vs. 连续动作DDPG(Deep Deterministic Policy Gradient)DDPG 的特点离散动作 vs. 连续动作离散动作:动作个数是可数的。比如,在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有 6 个按键的动作可以输出。连续动作:动作个数是不可数的。推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器原创 2020-11-05 21:53:54 · 1713 阅读 · 0 评论 -
深度强化学习-稀疏奖励及模仿学习-笔记(七)
稀疏奖励及模仿学习稀疏奖励 Sparse RewardReward ShapingCuriosityCurriculum LearningReverse Curriculum GenerationHierarchical RL(分层强化学习)模仿学习 Imitation learningBehavior CloningDataset Aggregation:Inverse RLThird Person lmitation Learning稀疏奖励 Sparse Reward讨论的问题是:在agent学习原创 2020-11-04 21:00:39 · 958 阅读 · 0 评论 -
深度强化学习-Q-learning解决悬崖寻路问题-笔记(三)
Q-learning解决悬崖寻路问题一级目录二级目录三级目录一级目录二级目录三级目录原创 2020-11-03 21:16:34 · 4337 阅读 · 1 评论 -
深度强化学习-使用DQN实现CartPole-v0-笔记(六)
DQN实现CartPole-v0一级目录二级目录三级目录一级目录二级目录三级目录原创 2020-11-03 13:30:29 · 794 阅读 · 0 评论 -
深度强化学习-DQN 算法及 Actor-Critic 算法-笔记(五)
DQN算法及 Actor-Critic 算法DQNQ-learning状态价值函数 State Value FunctionDQNQ-learning状态价值函数 State Value Function原创 2020-10-30 22:04:47 · 1261 阅读 · 0 评论 -
深度强化学习-策略梯度及PPO算法-笔记(四)
策略梯度及 PPO 算法一级目录二级目录三级目录一级目录二级目录三级目录原创 2020-10-28 22:12:09 · 2181 阅读 · 0 评论 -
深度强化学习-马尔科夫决策过程和表格型方法-笔记(二)
马尔科夫决策过程马尔科夫过程 Markov Process(MP)(1)马尔科夫性质(2)马尔科夫过程/马尔科夫链(3)马尔科夫奖励过程 Markov Reward Process(MRP)horizon:同一个episode或者是整个一个轨迹的长度,它是由有限个步数决定的。return:Return 说的是我们把奖励进行折扣,然后获得的这个收益。Return 可以定义为奖励的逐步叠加,然后这里有一个叠加系数,就是越往后得到的奖励,折扣得越多。这说明我们其实更希望得到现有的奖励,未来的原创 2020-10-23 17:17:25 · 2081 阅读 · 0 评论 -
深度强化学习-笔记(一)
深度强化学习概述什么是强化学习?强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。Agent 在环境里面获取到状态state,也是对整个environment的observation,agent 会利用这个状态输出一个 action,一个决策。然后这个决策会放到环境之中去,环境会通过这个 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。强化学习与监原创 2020-10-20 22:38:36 · 302 阅读 · 0 评论