
强化学习
kikook
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[Python3] 机器学习之手写梯度下降并绘制theta和loss
如题,本文使用Python3手写梯度下降并进行数据可视化参数设置:initial_theta=0(任意选取,这里取0)eta=0.05(步长)n_iters=1000(最大迭代次数epslion=1e-8(迭代精度,提前退出条件)目录1.效果图1.1 一次函数梯度下降1.2 二次函数梯度下降2. 代码1.效果图1.1 一次函数梯度下降...原创 2020-03-13 00:58:08 · 1443 阅读 · 0 评论 -
[Python3] 一文搞定Python进阶内容 List Comprehension (列表推导式)
看到这样的python代码,很懵逼???[n for n in range(1, dividend+1) if dividend % n == 0]或者这个:f = list(zip(prob,labels))rank = [values2 for values1, values2 in sorted(f, key=lambda x:x[0])]查了一下,这种写法是lis...原创 2020-03-05 22:26:07 · 1144 阅读 · 1 评论 -
【机器学习】python3中numpy,pandas等科学计算包的使用(持续更新)
本学期选修了《机器学习》,每周两次,每次课都有5-10道编程练习,限时很刺激,做点笔记!numpy中文手册,查着很快很爽:https://www.numpy.org.cn/reference/感恩翻译者和网站的维护者们!1.Numpy常用的1.0 n维数组(ndarray)1.0.1np.array()import numpy as nparray1_6 =...原创 2020-03-26 14:08:44 · 548 阅读 · 0 评论 -
[强化学习] 从剪刀石头布中学习策略C语言实现
本算法可归类到《强化学习》一书第一章中提出的“环境不变化的K臂赌博机”。程序参考了 [日] 小高知宏 在其著作《强化学习与深度强化学习》第一章的代码。问题是这样的,假设已经有了一个对手,按照2:2:1的比例进行剪刀、石头、布的出拳,编写算法在有限次迭代之后实现学会最优出拳策略。程序本身很简单,但是给编写强化学习程序提供了具体的代码范例和训练思路。目录1.算法思想2.编程实现...原创 2019-12-31 23:59:15 · 1386 阅读 · 0 评论 -
【强化学习】Win10使用anaconda安装Gym环境并运行你的第一个强化学习程序“Hello world”
首先进入anaconda目录创建一个名为Gym的文件夹否则会报错:然后要注意指定python版本:conda install --name Gym python=3.6.6然后如果已经在虚拟环境下了,此时需要首先退出虚拟环境,否则激活Anaconda环境命令无效果:(如果你没有使用虚拟环境,那么忽略deactivate)activate Gym这样就完成了环...原创 2019-09-10 16:55:43 · 19903 阅读 · 18 评论 -
[Anaconda]常用指令
查看环境:conda info -e创建环境:选择python版本3.6.6 环境名称为 env_nameconda create -n env_name python=3.6.6进入环境:activate env_name退出环境:deactivate env_name删除环境:conda remove -n env_name --all包管理使...原创 2019-09-10 18:34:12 · 151 阅读 · 0 评论 -
【强化学习】imitation learning 前沿论文
1 前言在上一篇文章最前沿:机器人学习Robot Learning的发展 - 知乎专栏 中,我们介绍了机器人学习Robot Learning这个方向的发展趋势,并介绍了部分基于DRL的方法,那么在本文,我们将继续介绍一下最近发展起来的机器人学习的一个重要分支------模仿学习Imitation Learning。通过深度增强学习Deep Reinforcement Learning,我们可以...转载 2019-09-14 16:39:53 · 1211 阅读 · 0 评论