机器学习
文章平均质量分 59
虾米小飞
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《一个 Q-learning 算法的简明教程》之Python代码
本文是对A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)中的强化学习教程做的Python代码实现代码框架参考【莫烦Python】强化学习 Reinforcement Learning场景简述一栋房子,共5个房间(最外层也看做一个房间5),目标是快速地从某个房间走出(即走到房间5)抽象为有向图,并关联奖赏(只有通向房间5的转移有奖赏100,其他情况都为0)。代码实现# -*- coding: utf-8 -*-"""Creat.原创 2021-03-03 15:53:24 · 891 阅读 · 3 评论 -
强化学习-笔记
Markov Process没reward,没action,只有 状态S 和 状态转移矩阵P,<S,P><S,P><S,P>Markov Reward Process加reward需要 奖励函数R 和 折扣因子γ\gammaγ,<S,P,R,γ><S,P,R,\gamma><S,P,R,γ>奖励函数R只表示出当前状态的奖励(即时奖励)目标:最大化累计奖赏Gt=Rt+1+γRt+2+...G_t= R_{t+1}+\g原创 2020-12-07 20:41:08 · 360 阅读 · 0 评论 -
求助-强化学习基础-K-摇臂老虎机Python
按照周志华西瓜书第16章K-摇臂赌博机的伪码编的程序:# -*- coding: utf-8 -*-"""e贪心和Softmax2-摇臂赌博机摇臂1:0.4概率奖励1,0.6-0摇臂2:0.2-1, 0.8-1@author: y1064"""import numpy as npimport matplotlib.pyplot as pltK = 2 # 摇臂数...原创 2020-04-16 08:03:37 · 548 阅读 · 0 评论
分享