
深度强化学习
文章平均质量分 67
熟悉Q-Learning,DQN...
维他柠檬可乐
学习数据分析,深度学习,机器学习.努力努力再努力.
展开
-
深度学习分类模型用到的函数
tf.reduce_mean()函数:计算数据的平均值tf.reduce_mean( input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None)原创 2022-01-05 15:01:44 · 1243 阅读 · 0 评论 -
基于DQN实现立杆子游戏
设置参数,定义学习率,奖励递减值,记忆库大小等Batch_size = 32Lr = 0.01 #学习率Epsilon = 0.9 #最优选择动作百分比Gamma = 0.9 #奖励递减函数Target_replace_iter = 100 #Q现实网络的更新频率Memo.原创 2021-12-20 16:26:13 · 3492 阅读 · 0 评论 -
DQN代码
一,DQN的博客,课程等资料强化学习博客专栏推荐1.强化学习基本概念,2.马尔可夫决策过程(MDP),3.MDP的动态规划解法,4.蒙特卡罗方法,5.时间差分学习。李宏毅深度强化学习(知乎热门推荐路线)第一讲:1.基础知识视频讲解2.基础知识笔记...原创 2021-12-20 11:36:09 · 225 阅读 · 0 评论 -
网络缓存基础知识:
1基本概念边缘计算是什么:边缘计算是指在靠近物或数据源头的一侧,采用网络,计算,存储,应用核心能力为一体的开放平台,就近提供最近端服务。边缘计算特点:低延迟,大带宽,自定义,高效能,高安全。4类行业玩家:云计算厂商,专业服务厂商,电信运营商,设备及芯片厂商。大型企业:人工智能,大视频,智能交通,智能制造。边缘计算如图边缘服务器:边缘服务器是为用户提供进入网络的通道和其它服务器设备通信的功能,通常是一组完成单一功能的服务器,如高速缓存服务器,DNS服务器等。..原创 2021-12-07 20:28:57 · 1067 阅读 · 0 评论 -
强化学习理论(Reinforcement Learning)
理论:强化学习包含三种方法:1.通过价值选行为:Q Learning,Sarsa,Deep Q Network.2.直接选行为:Policy Gradlents.3.想象环境并从中学习:Model based RL.强化学习方法汇总(.比较著名的控制方法:Q Learning,Policy Gradlents,Model based RL.):基于环境的划分:1.不理解环境(Model-Free RL):Q Learning,Policy Gradlents,Sarsa.2.理解环境(Mo原创 2021-10-26 21:08:30 · 1247 阅读 · 0 评论 -
深度强化学习(Deep Q-learning,DQN)
参考:莫烦Python1.什么是DQN?如图显示,主要由DNN+Q-Learning组成。Q-Learning已经显示了它的强大。由于场景复杂,状态太多,计算机运行有限。DQN就为解决这个而生。强大的DQN输入输出有两种,第一种,输入状态和动作,输出为Q表。第二种,输入状态,输出动作。分析第二种情况:反向传播更新DNN。使得DQN无比强大的两大原因:第一,Experience replay;第二,Fixed Q-targets;...原创 2021-10-27 21:40:23 · 752 阅读 · 0 评论