
算法学习
Test_hh112
这个作者很懒,什么都没留下…
展开
-
强化学习 之 Model Based Learning 概述
参考1.强化学习传说:第五章 基于模型的强化学习2.基于模型的强化学习比无模型的强化学习更好?错3.[强化学习]区分Model-free和Model-based方法概述此前学习的大多数算法其实都是属于Model Free RL的范畴,如Q-learning、Policy Gradient以及A3C、DDPG等等。这些无模型RL算法通过智能体与环境的交换来不断试错,对价值函数或策略函数进行估计,不对环境进行建模也能找到最优的策略。Model Based RL,即基于模型的RL,则是通过交互得到的数原创 2020-12-28 15:02:35 · 1230 阅读 · 1 评论 -
时间序列ARIMA模型学习
参考博客1、python中利用ARIMA模型对时间序列问题进行预测(以洗发水销售预测为例)2、机器学习(五)——时间序列ARIMA模型3、时间序列分析-ARIMA模型(python)笔记详情参考三篇博文。1、ARIMA模型,全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model),是AR模型、差分运算、MA模型的结合。ARIMA模型是在将非平稳时间序列转化为平稳时间序列过程中,将因变量仅对它的滞后值以及随机误差项的现值和滞后值进原创 2020-09-05 20:41:51 · 852 阅读 · 0 评论 -
HRL相关论文整理 及 代码测试记录
《data-efficient-hierarchical-reinforcement-learning (NIPS 2018)》 &《Near-Optimal Representation Learning for Hierarchical Reinforcement Learning (ICML 2019)》Code进度:Python3.6 + TF2.1 —— 会提示DLL找不...原创 2020-03-08 17:11:16 · 1315 阅读 · 0 评论 -
MADDPG环境配置
源码GitHub源码分为环境和算法两个部分:1、Multi-Agent Particle Environment2、Multi-Agent Deep Deterministic Policy Gradient (MADDPG)环境配置下载 Multi-Agent Particle Environment 源码,阅读 README.md 可知需要先配置:Python (3.5.4), O...原创 2020-02-14 16:39:47 · 4901 阅读 · 7 评论 -
强化学习 之 多智能体(Multi-Agent)强化学习
参考1、多智能体强化学习入门(一)——基础知识与博弈2、《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读原创 2019-11-18 18:52:13 · 23548 阅读 · 0 评论 -
强化学习 之 DDPG
简介Deep Deterministic Policy Gradient (DDPG) 是Google DeepMind 提出的一种使用 Actor Critic 结构,但是输出的不是行为的概率,而是具体的行为,用于连续动作的预测。DDPG 结合了之前获得成功的 DQN 结构,提高了Actor Critic的稳定性和收敛性。DDPG和Actor-Critic 形式差不多,也需要有基于 策略...原创 2019-07-30 00:35:03 · 1140 阅读 · 1 评论 -
强化学习 之 Actor Critic
简介Actor Critic是一种结合体算法:(1)Actor 的前生是 Policy Gradients,这能让它毫不费力地在连续动作中选取合适的动作,而 Q-learning 做这件事会瘫痪;(2)Critic 的前生是 Q-learning 或者其他的 以值为基础的学习法,能进行单步更新,而传统的 Policy Gradients 则是回合更新,这降低了学习效率。算法思想Actor...原创 2019-07-29 16:54:23 · 615 阅读 · 0 评论 -
强化学习 之 Policy Gradient
简介强化学习是一个通过奖惩来学习正确行为的机制。其中,Q learning、Sarsa、Deep Q Network等通过学习奖惩值, 根据自己认为的高价值选行为;Policy Gradients则不通过分析奖励值,直接输出行为,即接受环境信息 (observation)后,他要输出不是 action 的 value,而是具体的那一个 action,这样 policy gradient 就跳...原创 2019-07-29 14:26:18 · 856 阅读 · 0 评论 -
强化学习 之 Deep Q Network
DQN简介DQN是一种融合了神经网络和 Q learning 的方法,因为传统表格形式的强化学习有这样一个瓶颈:当问题过于复杂,状态过多时,全用表格来存储它们是不现实的。使用神经网络,我们就可以将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值,这样我们就没必要在表格中记录 Q 值,而是直接使用神经网络生成 Q 值。还有一种形式的是这样,我们也可以只输入状态值,输出所...原创 2019-07-18 15:18:17 · 782 阅读 · 0 评论 -
强化学习 之 Q-Learning & Sarsa
Q-Table这两种强化学习算法都使用Q表记录在每一个state下选择每一个action的值,并通过进入到下一个state’中所获得的反馈reward(可正可负)来更新Q表对应的(s,a)的值。Q-Learning原理分析:实现步骤:1.初始化Q-Table(Q表是一张二维的表格,每一行表示状态state,每一列表示行动action)2.在每一轮训练中,首先初始化起始状态s,并在训练...原创 2019-07-08 18:02:52 · 695 阅读 · 0 评论 -
TensorFlow实现CNN-MNIST
CNN卷积神经网络原理图:准备工作下载并导入MNIST手写数字库from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("mnist_data", one_hot=True) # 设置使用独热码定义输入与输出input_x = tf.placeholder...原创 2019-06-02 17:23:49 · 208 阅读 · 0 评论 -
数据结构 之 树
二分搜索树数据结构:使用Node表示节点的左右子节点,使用Key和Value表示键和值插入操作:将新的元素与根节点比较,若大,则向左,与左子树的根节点继续比较,反之则于右子树的根节点比较;直至该元素成为一个新的叶子节点,并更新连接关系 Node* insert(Node *node, Key key, Value value){ if( node == NULL ){ ...原创 2019-05-21 14:12:44 · 184 阅读 · 0 评论 -
数据结构 之 堆
优先队列普通队列:先进先出,后进后出优先队列:出队顺序和入队顺序无关,只与优先级有关;可以方便地动态选择优先级最高的任务执行优先队列的实现:(1)普通数组:入队O(1),出队O(n)(2)顺序数组:入队O(n),出队O(1)(3)堆:入队O(logn),出队O(logn)堆堆是一棵完全二叉树。最大堆中,节点的值总是不大于其父节点的值。使用数组存储堆:Shift Up 操作:...原创 2019-05-18 15:50:43 · 334 阅读 · 0 评论 -
数据结构 之 排序算法
O(n^2)级别的排序算法时间复杂度为O(n^2)的排序算法比较基础,但有重要的意义:(1)编码简单,易于实现,是一些简单情景的首选(2)在一些特殊的情况下,简单的排序算法更加有效(3)简单的排序算法思想可以衍生出更加复杂的排序算法选择排序算法描述:每次从未排序的元素队列中,找到最小的那个元素并记录索引位置,再和未排序元素的队首进行交换,则蓝色有序部分长度相应加1代码实现:tem...原创 2019-05-18 14:22:09 · 206 阅读 · 0 评论 -
数据结构 之 并查集
概述并查集是一种特殊的树形结构,主要支持两个动作:(1)连接p和q两个节点:Union(p, q)(2)查询节点p所属的组:Find§同时可以解决连接问题,即节点p和q是否相连:isConnected(p, q)并查集操作的时间复杂度近乎为O(1)基本数据表示将每一个元素看作是一个节点,开始时均指向自身:使用parent表示该节点指向的位置:更新节点之间的连接状态:数据结...原创 2019-05-16 14:28:11 · 186 阅读 · 0 评论 -
数据结构 之 图论基础
图的表示1.邻接表:2.邻接矩阵:图的遍历1.深度优先遍历 DFS2.广度优先遍历 BFS应用:联通分量,Flood Fill,寻路,走迷宫及迷宫生成,无权图的最短路径,环的判断最小生成树问题1.Prim算法2.Kruskal算法最短路径问题1.Dijkstra算法2.Bellman-Ford算法...原创 2019-05-16 13:21:27 · 460 阅读 · 0 评论