
AI
money_yuan
多多学习,努力赚钱,给家人一个好的生活
展开
-
【RL从入门到放弃】【二十七】【google dopamine】
除了OpenAI,还有其他巨头在做强化学习的工作(尤其是深度强化学习),这里介绍Google和Facebook两家开源的工程,分别是Dopamine和Horizon,Github上地址分别为:https://github.com/google/dopamine 和 https://github.com/facebookresearch/HorizonDopamine is a research...转载 2019-05-10 17:33:49 · 607 阅读 · 0 评论 -
【RL从入门到放弃】【二十四】
1、dropout解决过拟合dropout就是踢掉里面的一些神经连接pool可以视为保留一些参数import tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom __future__ import print_functionimport tenso...转载 2019-05-06 15:10:49 · 495 阅读 · 1 评论 -
【RL从入门到放弃】【二十二】
现在来看看tensorflow,毕竟要在tensorflow和pytorch之间该改改1、demo1、variable 2、graph 3、op 4、session# -*- coding: utf-8 -*-import tensorflow as tf;import numpy as np;x_data = np.float32(np.random.rand(...转载 2019-04-30 18:06:11 · 182 阅读 · 0 评论 -
【RL从入门到放弃】【二十六】【OpenAI gym玩打砖块游戏】
今天来看看OpenAI 团队的gym,看看能否受到启发啊!Gym is a toolkit【工具包】 for developing and comparing reinforcement learning algorithms. It supports teaching agents everything fromwalkingto playing games likePongorP...转载 2019-05-08 19:04:42 · 3337 阅读 · 2 评论 -
【RL从入门到放弃】【二十一常见模型分析】
在RL里面重要且比较容易被忽视的一环是ENv,为什么重要,因为env是对实际情况的理解,尤其是输入特征和reward的定义直接影响最终的结果。而网上的很多关于RL的知识点,都主要在涉及agent上,所以对这个基础的东西是忽略掉了的。迷宫游戏游戏规则:探索者从红色的初始位置以最少的step到达天堂Env提供的数据Initial:在红色位置为初始化位置States: 当前...翻译 2019-04-25 16:30:03 · 1334 阅读 · 0 评论 -
【RL从入门到放弃】【二十五】
一直在纠结强化学习的env环节,今天来看看google团队提供的horizen:今日,Facebook 开源了适合大规模产品和服务的强化学习平台 Horizon,这是第一个使用强化学习在大规模生产环境中优化系统的开源端到端平台。Horizon 包含的工作流程和算法建立在开放的框架上(PyTorch 1.0、Caffe2、Spark),任何使用 RL 的人都可以访问 Horizon。去年,Fac...转载 2019-05-08 13:38:06 · 386 阅读 · 0 评论 -
【RL从入门到放弃】【二十三】
项目上做不走了,感觉遇到了难以跨越的大山,所以真正的AI落地才是难点啊!1、定义layer活学活用,举一反三import tensorflow as tfimport numpy as npx_data = np.random.rand(100).astype(np.float32)#x_data = np.random.rand(100).astype(np.float32...转载 2019-05-05 15:22:55 · 235 阅读 · 0 评论 -
【RL从入门到放弃】【二十】
增强学习在无人驾驶中的应用,其实也不知道能否做出来,但是先看看。https://wayve.ai/blog/learning-to-drive-in-a-day-with-reinforcement-learningThe first example of deep reinforcement learning on-board an autonomous car.你是否还记得还提时学...翻译 2019-04-24 13:57:32 · 373 阅读 · 0 评论 -
【RL从入门到放弃】【十五】
1、基于策略搜索的RL之前介绍的都是基于值函数的RL,通过神经网络来毕竟值函数,然后通过greedy策略或者贪婪策略去选择action,基于值函数的RL存在一个缺陷,那就是动作空间必须是有限的且是离散的,当动作空间是连续的或者无穷大时便无法处理。此时基于策略搜索的RL就开始起到作用了实际上觉得上面这个分类有点怪怪的在不同的情形下,累积回报的期望是否最大的衡量方式是不同的...转载 2019-04-19 15:46:03 · 335 阅读 · 0 评论 -
【RL从入门到放弃】【十九】
1、组合策略梯度和值函数的方法转载 2019-04-22 16:27:07 · 164 阅读 · 0 评论 -
【RL从入门到放弃】【十八】
1、基于引导策略搜索的RL转载 2019-04-22 16:18:34 · 202 阅读 · 0 评论 -
【RL从入门到放弃】【十七】
1、基于确定性策略的RL随机策略梯度为:转载 2019-04-22 15:42:13 · 160 阅读 · 0 评论 -
【RL从入门到放弃】【十六】
1、KL离散度2、优化方法转载 2019-04-22 15:25:52 · 185 阅读 · 0 评论 -
【RL从入门到放弃】【二十】
1、置信域策略优化本章我们介绍TRPO。TRPO是英⽂单词Trust Region Policy Optimization的简称,最终TRPO问题简化为:转载 2019-04-22 15:10:40 · 184 阅读 · 0 评论 -
【SuttonBartoIPRLBook2ndEd】【preface】
We first came to focus on what is now known as reinforcement learning in late1979. We were both at the University of Massachusetts, working on one ofthe earliest projects to revive the idea that ...翻译 2019-06-06 17:33:59 · 290 阅读 · 0 评论 -
JSON怎样添加注释
今天在写一个程序的时候发现了一个问题,在json文件中添加注释之后,程序就出现bug了于是,去搜了一下这个问题的相关解释,在这里和大家分享一下:JSON为什么不能添加注释?这位外国友人给出的解释:大神注意到有人利用注释来制定解析规则,这破坏了互操作性(Interoperability)。因此大神将其剔除。JSON有两种数据结构:名称/值对的集合:key : valu...转载 2019-08-16 17:22:49 · 28604 阅读 · 0 评论 -
tf.placeholder函数说明
函数形式:tf.placeholder(dtype,shape=None,name=None)参数:dtype:数据类型。常用的是tf.float32,tf.float64等数值类型shape:数据形状。默认是None,就是一维值,也可以是多维(比如[2,3], [None, 3]表示列是3,行不定)name:名称为什么要用placeholder?...翻译 2019-08-16 16:23:58 · 248 阅读 · 0 评论 -
tensorflow中的“tf.name_scope()”有什么用?
转自:https://www.jianshu.com/p/635d95b34e141. tf.name_scope()命名空间的实际作用(1)在某个tf.name_scope()指定的区域中定义的所有对象及各种操作,他们的“name”属性上会增加该命名区的区域名,用以区别对象属于哪个区域;(2)将不同的对象及操作放在由tf.name_scope()指定的区域中,便于在tensorboar...转载 2019-08-16 15:24:01 · 6855 阅读 · 1 评论 -
tensorflow中os.environ["TF_CPP_MIN_LOG_LEVEL"]的值的含义
闲扯一下,最近组内同事跑路或回乡的甚多,不知是经济不景气还是新官上任三把火,加之近来身体不佳更觉忧思深重,无奈房贷缠身上有60岁父母下有即将出世的孩童,倍感生活不易。本文转自:https://blog.youkuaiyun.com/qq_40549291/article/details/85274581感谢作者的知识分享~看代码时遇到os.environ['TF_CPP_MIN_LOG_LEVE...转载 2019-08-16 14:32:42 · 860 阅读 · 0 评论 -
【RL】【发展历史和分类】
发展历史分类现实中的很多例子是:不基于模型的且回报函数也是不知道的。但是网上给出的例子基本上都是基于模型的,当然模型中的回报函数也是给你定义出来了的,或许你要做的就是调节超参数或者网络结构,使得他更加快速的收敛而已。...转载 2019-07-17 15:56:33 · 271 阅读 · 0 评论 -
【线性方程组】
1、线性方程组的求解方法消元法2、矩阵的秩将矩阵化为行阶梯矩阵,其中不为0的行的行数即为矩阵的秩3、矩阵的行列式其中只有方针才有行列式4、公式法求解线程方程组的解如果线性方程组满足两个条件: (1)方程组中未知量的个数等于方程的个数, (2)系数行列式不为零, 则可以用克莱姆法则中给出的公式解线性方程组.5、阶梯型矩阵阶梯型矩...翻译 2019-07-09 15:53:44 · 2100 阅读 · 0 评论 -
【聚类算法】
计算方法传统的聚类分析计算方法主要有如下几种:1、划分方法(partitioning methods)给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1) 每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初...翻译 2019-07-09 13:07:15 · 442 阅读 · 0 评论 -
【应用数学与机器学习基础】
线性代数的知识1、标量:令x属于R 表示一条线的斜率,小写斜体表示,会表明他属于是哪种类型2、向量:小写粗体表示,也会标明属于是哪种类型S = {1; 3; 6} 指定x1,x3 和x6, 表示为Xs,,X-s表示x 中除x1,x3,x6 外所有元素构成的向量。3、矩阵:,Ai;: 表示A 中垂直坐标i 上的一横排元素。这也被称为A 的第i 行(row),A:;i 表示A ...翻译 2019-07-08 19:53:54 · 239 阅读 · 0 评论 -
【TENSORFLOW 无监督学习处理MNIST手写数字数据集】
实际上就是训练一个网络,使用手写数字识别的数据作为输入,最后的数据分类是否准确可以通过图像信息显示能得到结果。# 导入模块import numpy as npimport tensorflow as tfimport matplotlib.pyplot as plt# 加载数据from tensorflow.examples.tutorials.mnist import inpu...转载 2019-07-08 17:27:08 · 1586 阅读 · 0 评论 -
tensorflow模型转换成tensorflow lite模型
1、转换mobilenet_v1_1.0_224模型之前实践过,但是由于长时间没做,当时也没写笔记所以后续也浪费了一点时间对应的google已经训练好的模型可以在这里下载https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet_v1.md其中frozen_graph的输入文件使用到...转载 2019-07-02 15:23:05 · 3360 阅读 · 0 评论 -
【deep RL】【OpenAI】【一】
OpenAI地址:https://spinningup.openai.com/en/latest/index.htmlGitHub地址:https://github.com/openai/spinningup/blob/master/docs/user/running.rstWelcome to Spinning Up in Deep RL!User Documentat...翻译 2019-06-11 18:44:31 · 1102 阅读 · 0 评论 -
【SuttonBartoIPRLBook2ndEd】 【Tabular Solution Methods】
Part ITabular Solution MethodsIn this part of the book we describe almost all the core ideas of reinforcementlearning algorithms in their simplest forms, that in which the state andaction spaces ...翻译 2019-06-11 15:36:25 · 524 阅读 · 0 评论 -
通过简单的强化学习实现井字棋(Tic-Tac-Toe)
一、强化学习简介强化学习的过程可以理解为Agent与Environment的交互、学习、进步的过程,在井字棋中,可以简单的将其中的一方理解为Agent,另一方为Environment。交互的过程中主要有一下4个要素:状态(state):指可能出现的情况或局面,在井字棋中指局面上的落子情况与先后手。操作(action):指从一个状态(state)到另一个状态(state)的过程,在井字棋中指...转载 2019-06-11 13:59:31 · 3505 阅读 · 0 评论 -
【SuttonBartoIPRLBook2ndEd】【chapter I】
The idea that we learn by interacting with our environment is probably therst to occur to us when we think about the nature of learning. When aninfant plays, waves its arms, or looks about, it has n...翻译 2019-06-06 19:22:44 · 627 阅读 · 0 评论 -
【RL从入门到放弃】【十四】
alphazero下五子棋,code赏析1、play之前直接开始就开始train,结果导致学习mcts的时候,觉得甚是复杂,所以这里先讲如何去玩playclass Play(object): def __init__(self): net = Net() if USECUDA:#这个为false net = net....转载 2019-04-09 18:41:19 · 897 阅读 · 0 评论 -
【RL从入门到放弃】【八】
1、tensorboard的使用pip install tensorboard运行.py生成logimport tensorflow as tfwith tf.name_scope('input1'): input1 = tf.constant([1.0,2.0,3.0],name="input1")with tf.name_scope('input2'): input2 =...转载 2019-04-03 19:34:50 · 309 阅读 · 0 评论 -
tensorflow lite(三)
lable_img里面有个读取文件的信息#include <cstdint>#include <cstdio>#include <cstdlib>#include <fstream>#include <iostream>#include <unistd.h> // NOLINT(build/include_...转载 2019-01-11 17:04:03 · 859 阅读 · 0 评论 -
tensorflow lite(二)
1、main函数中获取setting的值tflite::Lable_image::Main函数:输入参数全部存储在Setting里面: ./lable_image -i ./grace_hopper.bmp -l ...转载 2019-01-11 14:52:52 · 2047 阅读 · 0 评论 -
tensorflow lite(一)
模型文件格式:模型的主结构,modle结构体/tensorflow$ vi contrib/lite/schema/schema.fbs +420table Model { // Version of the schema. version:uint; // A list of all operator codes used in this model. This is ...转载 2019-01-11 11:22:18 · 955 阅读 · 0 评论 -
Python 最小二乘法多项式拟合曲线numpy.polyfit(),numpy.poly1d(),pylab
import numpy as npfrom scipy.optimize import leastsqimport pylab as pl x = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10....转载 2018-11-23 10:42:15 · 2438 阅读 · 1 评论 -
【numpy】【pandas】
numpy是基于C语言写的,pandas是基于numpy开发的1、numpy1.1、numpy的属性numpy是基于矩阵的运算, ndim\shape\size1.2其余属性指定数据的类型,或者生成全为0或者全为1的矩阵数据使用np.empty生成矩阵,empty实际是一个比较接近0的数据,不是0np.arrange还有np.reshape的具体用法...原创 2018-11-23 19:29:17 · 184 阅读 · 0 评论 -
【强化学习】
1、强化学习概貌强化学习是机器学习中的一个子分支,基本上完全模拟了婴儿学习认知世界的过程,在state执行了一定的action之后开始给予一定的reward,计算机总是尝试获取高分,在不断的尝试之后state会从历史的经验里面找到能获得最高分的action。强化学习具有分数导向性,这个分数导向性和监督学习中的标签类似 2、强化学习分类2.1算法级别分类分类主要还是通过他们的...翻译 2018-11-23 18:20:31 · 252 阅读 · 0 评论 -
【范数】【矩阵特征值】【惩罚函数】【超参数】
1、范数范数:是定义在数学空间的一个概念,是定义在赋范线性空间的函数,满足一定条件就可以称他为范数向量范数和矩阵范数1.1向量范数向量范数是衡量向量大小的一种度量方式,向量范数是一个定义域为任意线性空间向量的函数,他把一个向量v映射为一个非负实数R,满足f:v--->R几个角度上:向量x的范数是度量从原点0到x的距离广义上说,需要满足如下三个条件:模型最优化时...转载 2018-11-16 14:03:06 · 5087 阅读 · 0 评论 -
【sklearn库提供的线性回归算法】
对比可以看看这个链接:https://blog.youkuaiyun.com/ivy_reny/article/details/78769790转自:https://www.cnblogs.com/pinard/p/6026343.htmlscikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的...转载 2018-11-15 18:34:13 · 369 阅读 · 0 评论 -
【过拟合和欠拟合】【Lasso算法】
1、过拟合所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。打个比喻就是当我需要建立好一个模型之后,比如是识别一只狗狗的模型,我需要对这个模型进行训练。恰好,我训练样本中的所有训练图片都是二哈,那么经过多次迭代训练之后,模型训练好了,并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去...转载 2018-11-15 17:59:05 · 2323 阅读 · 0 评论