自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Ray的博客

机器学习,强化学习

  • 博客(9)
  • 收藏
  • 关注

原创 时间轴网页生成脚本工具Txt_to_timeline

时间轴生成脚本工具Txt_to_timeline最近想给女朋友一个惊喜,把我们从认识到现在的事情用时间轴串起来,最开始想用脑图,但是发现要长期使用的话成本太高,免费的又不支持插图,于是在网上找各种前端工具,发现都不合适也不好用。最后找到一些写时间轴的前端代码,但是直接写前端不方便,于是想通过python脚本将日记文本自动转为时间轴工具,便写了这个工具Txt_to_timeline,github地...

2020-04-22 10:15:43 1514

原创 基于PIL的图像压缩命令行工具

基于PIL的命令行图像压缩工具最近编写博客的过程中,使用了图床工具,当图片比较大的时候加载会比较慢,于是自己使用PIL编写了一套图像压缩工具,包括resize和jpg压缩两种模式,并编写为命令行格式,支持文件夹和图像文件两种处理方式,需要可以自取。功能:通过命令行调用;resize图像大小、压缩图像储存;可以处理单个图像文件或文件夹全部图像;# -*- coding: utf-8 ...

2020-04-20 22:33:05 290

原创 论文笔记 General Advantage Estimation(GAE)

论文笔记GAE1 引言2 GAE3 置信域值函数更新4 实验GAE 全称General Advantage Estimation,是一种平衡优势函数估计中的偏差和方差的方法。论文地址https://arxiv.org/abs/1506.024381 引言策略梯度法存在的两个方面问题:样本利用率,由于样本利用率低需要大量采样;算法稳定性,需要让算法在变化的数据分布中稳定提升;值函...

2020-03-28 00:26:10 11892 1

原创 置信域方法总结——TRPO、ACER、ACKTR、PPO

置信域方法总结——TRPO、ACER、ACKTR、PPO一、概述引用GAE论文的观点,策略梯度法存在的两个方面问题:样本利用率低,由于样本利用率低需要大量采样;算法训练不稳定,需要让算法在变化的数据分布中稳定提升;目前比较常用的四种置信域方法TRPO、ACER、ACKTR、PPO,就是围绕策略梯度法的上述两方面问题进行改进和优化。算法TRPOACERACKTRPPO...

2020-03-28 00:03:32 3006

原创 ACER算法介绍

ACER 算法介绍1. 离散动作1.1 截断重要性采样1.2 新的置信域方法1.3 离散算法Atari实验2 连续动作2.1 stochastic dueling network3 总结ACER算法是在论文SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY中提出的一种可以使用off-policy训练的置信域策略优化方法。ACER的目标是解决...

2020-03-25 00:11:15 2003

原创 强化学习论文——Policy invariance under reward transformations: Theory and application to reward shaping

Policy invariance under reward transformations: Theory and application to reward shaping这篇文章是奖励塑造的重要理论基础,对奖励函数的设计具有指导作用,作者有吴恩达,地址http://luthuli.cs.uiuc.edu/~daf/courses/games/AIpapers/ng99policy.pdf...

2020-02-12 01:03:26 2019

原创 Inkscape Mac 命令行使用

Inkscape Mac 命令行使用Inkscape是用于编辑SVG格式文件的软件,论文作图需要,但是Mac安装后无法使用命令行,查询了发现相关资料较少,故记录一下。下载dmg文件安装安装链接 https://link.zhihu.com/?target=https%3A//inkscape.org/en/添加环境变量要使用命令行需要将路径添加到path可执行文件路径 :老版...

2020-01-31 15:27:49 2046

原创 手写数字识别 极大似然参数估计+贝叶斯分类

这是我们模式识别课程中的一个实验,感觉很有代表性,就写成了博客,内容是手写数字识别 极大似然参数估计+贝叶斯分类,最高准确率96%+

2019-11-26 17:08:13 1531

原创 2048游戏DQN实验

2048 DQN实验背景工作分析问题状态表征强化学习算法参数设计代码实现实验结果CNN输入全连接输入CNN input + Priority总结背景我已经做过一些强化学习相关项目,本科的时候也用min-max搜索做过2048,一直觉得2048应该是适合被强化学习解决的,但是查询发现并没有比较合适靠谱的实现代码,于是完成并开源了我的一部分实现工作,供RL learner 参考,github链接 ...

2019-11-26 12:26:23 2986

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除