
强化学习
文章平均质量分 50
负壹
这个作者很懒,什么都没留下…
展开
-
强化学习实例:鸳鸯系统与动态规划求解
一、游戏介绍 鸳鸯系统游戏是指由两种鸳鸯在一个地图中,一只去寻找另外一只,图中有些障碍物是不能通行的,如果选择路径可以最快到达? 二、游戏系统搭建 具体可以看代码注释,主要思路是定义鸟的位置与状态,以及可以移动的方向,更新函数、碰撞检测等等,最后画图并渲染 #一些需要导入的头文件 import pygame from load import * import random import numpy as np class YuanYangEnv: def __init__(self)原创 2021-04-09 16:04:10 · 1302 阅读 · 1 评论 -
强化学习实例:多臂赌博机
一、游戏背景 多臂赌博机是一种游戏机,在本文中是一种具有三个拉杆的游戏机,每拉动一个杆,就会有一些金币从机器里出来,每只杆拉动出现的金币都是不一样的,同一只杆拉动多次出现的金币数量也是不全相同的,因此考虑拉动N次杆,怎么能让出现的金币的个数最多? 二、采取策略 一个很显然的思路是,先试探性的每个杆都拉动几次,看看哪个杆出现的金币比较多,那么之后就拉动那一只杆,这种思路是一种解决方法,但是如果因为巧合导致选择的那一只杆不是出金币最多的,那么就会导致很大的损失,所以考虑有没有方法可以在选择当前出金币最多的原创 2021-04-09 11:10:20 · 1094 阅读 · 1 评论 -
gym中机器人找金币环境侯建
一、目标 接下来要做个一个游戏是找金币,如下图所示,一个机器人从地图空白位置随机产生,通过上下左右移动,到达金币位置胜利,遇到了两个陷阱则失败,本文是构建了该地图并将地图注册到gym中,方便以后使用标准方法调用 二、构建过程 首先定义状态空间、动作空间、回报函数与状态转移概率 #状态空间 self.states = [1,2,3,4,5,6,7,8] #机器人可能产生的位置 self.x=[140,220,300,380,460,140,300,460] self.y=[250,250,25原创 2021-04-08 11:43:24 · 1018 阅读 · 1 评论 -
强化学习中的一些概念
1、强化学习要解决的是贯序决策问题,它不关心输入长什么样子,只关心当前输入下应该采取什么样的动作才能实现最终目标 2、监督学习与强化学习的区别:二者的相同点是都需要大量的数据进行训练,但是二者需要的数据类型不同,监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据 3、基于模型的强化学习算法利用与环境的交互得到数据学习系统或环境模型,再基于模型进行贯序决策 4、无模型的强化学习算法是直接利用与环境交互得到的数据改善自身的行为 5、基于模型的强化学习算法效率更高,但对于无法建立模型的问原创 2021-04-08 11:06:08 · 1420 阅读 · 0 评论