自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (8)
  • 收藏
  • 关注

转载 深度强化学习面试题汇总

转载自【深度强化学习面试】170道问题全面汇总蒙特卡洛、TD、动态规划的关系?DQN的几个变种以及各自解决了那些问题?深度强化学习中的DQN和A3C区别与联系?策略梯度的推导过程?策略梯度和actor-critic的关系与对比?A3C和DDPG区别和共同点?value-based和policy-based关系?off-policy和on-policy的好与坏?表格式到函数近似的理解?Actor-Critic的优点?Actor和Critic两者的区别?advantage(优势函数)推

2021-08-11 11:34:43 1798 1

原创 JAVA计算两条直线的交点(判断两条线段相交)

JAVA计算两条直线的交点(判断两条线段相交)

2022-07-28 21:09:52 3179

原创 AUC性能指标计算方法及优缺点

AUC是重要性能指标,除了Area under curve的面积意义以外,还可以通过统计上的概率进行解释。

2022-07-21 12:03:27 2021

原创 LRU缓存机制和LFU缓存机制的编码实现

LRU缓存机制和LFU缓存机制的理解与代码实现

2022-06-08 20:39:06 314

原创 回溯法记录:全排列和N皇后

全排列class Solution { List<List<Integer>> ans = new ArrayList<>(); public List<List<Integer>> permute(int[] nums) { boolean[] used = new boolean[nums.length]; List<Integer> res = new ArrayList<&

2022-05-11 21:02:17 208

原创 二分图:无向图的广度优先搜索

思路:graph是邻接矩阵,记录点u的下一个节点v,广度遍历节点进行染色。由于不一定是连通图,所以需要将所有的节点都进行染色,每次先选择一个没上色的节点进行广度遍历上色,直至与这个节点直接或间接相连的点都被上色。如果不是二分图,则会出现该节点已经有颜色且与要上色的样式不符。class Solution { private int RED = 1; private int GREEN = 2; public boolean isBipartite(int[][] graph) {

2022-05-02 17:19:29 465

原创 批量论文自动下载——从dblp数据库中查找并爬取论文

前言个人需要爬取一些论文资料, 所以根据优快云上已有的代码进行修改, 完成了一个可以根据dblp检索结果爬取论文的脚本.

2021-09-28 20:27:39 3792 2

原创 DQN的几个变种以及各自解决的问题

参考资料:李宏毅深度强化学习课程:https://www.bilibili.com/video/BV1UE411G78S?p=7知乎专栏:https://zhuanlan.zhihu.com/p/336723691

2021-09-28 15:56:42 2897

原创 蒙特卡洛、TD、动态规划的关系

动态规划动态规划是在已知环境(转移概率和奖励函数)的情况下,采用价值迭代/策略迭代的方式求解强化学习问题的方法。基于策略π\piπ的价值函数定义为:即,给定起始状态和根据策略π\piπ采取动作时的累计奖励期望。价值迭代:采用Bellman等式进行更新价值函数经过多轮迭代,最终收敛至最优价值函数策略迭代:依据价值函数选择累计奖励最大的动作策略经过多轮迭代,最终收敛至最优策略蒙特卡洛方法(Monte-Carlo methods,MC)MC方法值得是一类依赖于重复随机采样获得数值结果的计

2021-09-27 15:57:53 1654 1

原创 D4RL Benchmark 安装教程Ubuntu20.04

前言offline RL最新的benchmark: D4RL发布了,在此记录一下安装过程中踩得坑我个人安装环境是ubuntu20.04官方项目地址D4RL:https://github.com/rail-berkeley/d4rl安装过程pip install git+https://github.com/rail-berkeley/d4rl@master#egg=d4rl运行完之后,那么坑就来了第一个就是,需要配置mujoco200和mujoco200_linux,虽然这俩文件夹都是下载m

2021-09-09 12:19:15 2716 4

原创 强化学习书籍与课程推荐

书籍1.Reinforcement Learning:An Introduction Second Edition【强化学习(第二版)】Richard S.Sutton著视频资源1.深度强化学习课程 https://www.bilibili.com/video/BV1rv41167yx ,链接这门课程对target network,actor-critic,基于策略的强化学习等理论推导讲得非常好,有醍醐灌顶的功效。中文课英文PPT,相见恨晚!!2.RLChina暑期课 https://space.

2021-09-07 14:54:21 1643

原创 离线强化学习与在线强化学习

首先将RL分为两大类:online RL 和 offline RLoffline RL:离线强化学习。学习过程中,不与环境进行交互,只从dataset中直接学习,而dataset是采用别的策略收集的数据,并且采集数据的策略并不是近似最优策略。online RL:在线强化学习。学习过程中,智能体需要和环境进行交互。并且在线强化学习可分为on-policy RL和off-policy RL。on-policy采用的是当前策略搜集的数据训练模型,每条数据仅使用一次。off-policy训练采用的数据不需要是

2021-09-02 16:24:50 20259 10

原创 随便聊聊,关于大学,未来的规划

前言至今为止,我大都写的是技术性博客,部分关于算法、部分关于强化学习、部分关于工具类软件的使用教程,以及一小部分保研面试的经验分享。我知道大家使用优快云大都是来找BUG解决方案和学习技术的,如果你想摸会鱼,愿意听我唠唠嗑,那就继续看下去吧。大学博主是东北大学软件学院2017级毕业生,大学四年,诸多感慨,匆匆记录,留作纪念。天气南方人去到北方上学,很喜欢北方的天气。沈阳的春天风很大,晴天很多,不用担心雨季,每天都可以看到阳光灿烂。今天又是晴天的感觉真好呀~沈阳的夏天真的太热了,一年比一年热,东三省

2021-08-13 16:20:51 672 8

原创 Halcon实现锡膏分割

文章目录需求思路实现需求思路实现halcon代码:read_image (Image1, 'E:/锡膏.jpg')decompose3(Image1,Red,Green,Blue)sub_image(Blue,Red,GrayImage,1,128)mean_image(GrayImage,ImageMean,5,5)threshold(ImageMean,ImageThreshold,100,150)connection(ImageThreshold, ConnectedReg

2021-08-13 09:58:30 456

原创 如何系统地阅读paper

选取领域经典的paper,仔细阅读再阅读它引用的相关paper,以及引用它的高质量paper这样对于整个领域的发展就有了,较为清晰的认知在了解一个新的领域的时候阅读领域的开篇之作,总体上有个了解。需要带着批判的眼光去看论文理论部分可以看它引用的相关文章,方法明显借鉴的论文也需要看实验部分可以阅读它对比实验的相关文章,了解多篇文章的实验细节大量阅读文献才不会以偏概全,阅读高质量Paper才能培养出个人的学术眼光...

2021-08-06 16:39:05 126

翻译 Value Iteration Networks全文翻译——价值迭代网络

原文:Value Iteration Networks作者:Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, and Pieter Abbee出处:Neural Information Processing Systems 2016

2021-08-06 14:35:19 604

原创 JS中new Date().format("YYYY-mm-dd")提示format is not a function的解决办法

format方法已经被移除了,赶快换个组件!如果是个懒人,就不要再看那些自己写方法大神给的函数了!!用moment,npm一下子就能装好,很好用!!!moment 官网相关中文文档

2021-08-06 10:23:57 7065

原创 pyqt5实现图片显示、图片放大/缩小(通过滚轮)、图片移动(鼠标拖动)

Pyqt5真的太难了,这前端活太难顶了,写了三天,图片展示,就弄出来一个半成品,是我太菜了。参考了多个网上的资料,大家看着用吧,我郁某人再也不用这玩意了,立此贴为证!!!以下代码实现了是鼠标拖动图片,和滚轮放大/缩小图片# -*- coding: utf-8 -*-# Form implementation generated from reading ui file 'top-half.ui'## Created by: PyQt5 UI code generator 5.15.4##

2021-07-08 10:13:14 14258 10

原创 tensorflow中读取张量的shape并且数据为int类型

我遇到的问题:batch_size = tf.shape(hidden1)[0]如上所示,原有工程代码中是这样得到batch_size的,而这个batch_size是Tensor类型的,无法在np.zeros()或者for循环中使用。我查了很久如何将tensor转为int,并未找到相关方法。只找到了一大堆如何更改tensor中数据类型的博客,且大都是Ctrl+C/V,毫无营养。解决办法:后来发现,直接使用get_shape()方法可以直接得到shape的元组,如下所示:batch_size =

2021-07-01 15:56:05 1285 3

转载 强化学习面试题目

文章目录前言RL相关面试题:DL相关前言本篇文章内容转载自知乎大佬回答(链接)网址:https://zhuanlan.zhihu.com/p/335624695博主也是RL新手,目前一边看论文,一边为找工作做一些准备工作。这是我的第一篇转载的文章,转载主要是为了自身的查找方便,并且准备在之后查资料对这些问题做出个人的解答。如果这些题目对你有帮助,请一定要给知乎原作者点个大大的赞!!!!RL相关面试题:介绍下MC和TD的不同介绍下对DQN的了解,对Q值的理解,DQN是off-policy还是o

2021-04-19 22:36:42 678 1

原创 深度学习工具

文章目录前言PytorchNumpyMinicondaPycharmJupyterTensorboard结尾前言电脑正在炼丹,闲来无事整理一下最近做强化学习用到的工具。常用的库有:Pytorch、Numpy。工具有:miniconda、Pycharm、Jupyter、Tensorboard。Pytorch相比于Tensorflow的静态图,Pytorch的动态图真的太香了。近几年,主流深度学习、强化学习的框架大部分都是基于Pytorch库进行实现的。并且组内学长、学姐也都在用Pytorch,所以我也

2021-04-06 16:35:28 501

原创 21-03-21笔记(np.random.seed理解和Python中tables库)

今天继续看论文代码,查了一下np.random.seed()和random.seed()方法的具体理解,感觉甚为有趣特此记录。每次设置完np.random.seed()和random.seed()后,都可以保证在之后取随机数时都取到同一组数据。在一篇博客下看到这样一句话:seed()是设置了一条世界线。细细想来甚为有趣,如:seed(10),则表示之后取的随机数都是编号10数组中的随机数,可以理解编号10数组中有很多很多个随机数,依次向后取数。如果seed()中不填值,则会根据时间来选择某个数组。下

2021-03-21 14:52:21 716 1

原创 21-03-20笔记(将miniconda虚拟环境加入jupyter notebook)

一直用Pycharm写代码,不常用jupyter notebook。今天看其他论文代码的时候,想用Jupyter notebook运行一下其中具体某个函数的效果,但将虚拟环境加入Jupyter notebook时遇到了问题。参考了这篇博客解决了问题,在此进行记录,以免以后遇到问题再浪费时间。注意,从第一步开始都是在已经激活的虚拟环境中进行操作。...

2021-03-20 17:53:31 206

原创 POMDP中的贝叶斯滤波(Bayesian filter)

文章目录前言一、POMDP中贝叶斯滤波的使用二、贝叶斯滤波的公式推导1.基础知识  1.1 概率论基础  1.2 贝叶斯公式2.贝叶斯滤波算法  2.1 算法假设  2.2 算法推导  2.3 算法流程总结参考文献前言POMDP是Partially Observable Markov Decision Process的简称,表示局部可观测马尔可夫决策过程。MDP通常使用<S, A, T, R>表示,其中S表示状态、A表示动作、T(s’|s,a)表示转移模型,即在状态s下采取动作a到达状态s

2021-03-15 19:56:17 1554 2

原创 miniconda常用命令

文章目录前言一、更新Ubuntu二、Miniconda常用命令1.创建环境2.激活环境并安装相关包总结前言每次运行论文中对应代码的时候都要用conda搭建虚拟环境,今天就对于常用的命令做一个总结,以助于下次方便查找一、更新Ubuntu这一步还是很重要的,因为我自己的电脑装了双系统,ubuntu系统不常使用,偶尔来任务的时候才打开。 每次使用前更新一下ubuntu,可以避免不必要的报错与麻烦sudo apt updatesudo apt upgrade执行完成后,建议重启一下电脑二、M

2021-03-11 15:37:19 3741 1

原创 定理、引理和推论

Definition(定义):对数学术语含义的精确而明确的描述。它通过给出所有的属性,并且只有那些必须是真实的属性来表征一个词的意思。Theorem(定理):定理用严格的数学推理证明的数学陈述。在一篇数学论文中,定理一词通常是留给最重要的结果的。Lemma(引理):一个次要的结果,其唯一目的是帮助证明一个定理。它是证明一个定理的踏脚石。偶尔引理也会有自己的生命(Zorn引理,Urysohn引理,Burnside引理,Sperner引理)。Corollary(推论):一个结果,其中(通常简短)证明严重.

2021-03-03 22:09:41 2393 2

原创 RL方面论文中的相关概念

ablation study: An ablation study typically refers to removing some “feature” of the model or algorithm, and seeing how that affects performance.(通过控制变量法,减少模型中改变的部分,以确定各个改变的部分对于最终结果的影响)...

2021-02-24 17:16:19 880

原创 剑指offer做题笔记java版(41-68)

文章目录剑指 Offer 41. 数据流中的中位数(大顶堆+小顶堆)剑指 Offer 41. 数据流中的中位数(大顶堆+小顶堆)解题思路:采用堆(优先队列)的数据结构进行解题,采用大顶堆存储数据中较小的半部分,采用小顶堆存储数据中较大的半部分。插入数据时保持有序性,并且从大顶堆开始插入。大顶堆记为maxHeap,小顶堆记为minHeap。插入时(保证数据的有序性):1.如果maxHeap.size() == minHeap.size(),则先将新的数num插入minHeap,并将minHeap的堆顶

2021-02-08 00:35:40 723

原创 剑指 Offer 20. 表示数值的字符串(详细版+leetcode测试用例+双99%源码)

本题思路不难,就是需要注意细节,各种恶心的测试用例都有涉及。需要注意如下几点:1.±号只能出现在数字最开始或者e/E后面,不能出现在数字之间。2.空格只能出现在字符串的开头和结尾,中间的空格是不允许的。3.’.‘只能出现在e/E之前,不能出现在其后面。4.e/E出现在数字后面,且不能出现在结尾。5.最后一个非空格字符只能是数字或者’.’。6.整个字符串必须包含数字。本题我被坑的测试用例在此做个总结,以免后人多次提交:“e9”、“1 “、” “、”.1”、“3.”、"."、". 1"、“1 .

2021-01-26 22:54:27 195

原创 Markdown编译器用法

文章目录一、添加目录二、首行缩进三、输入空白行四、图片居中五、文本居中一、添加目录 @[toc] 写在文章开头,则## 标注的标题则会自动生成目录。 二、首行缩进  "&emsp;"可以缩进两个空格,实际使用中采用英文分号即可。 三、输入空白行 “&nbsp;"表示一个空格进行空行,实际使用中采用英文分号即可。 ”</ br>"也可以进行表示空白行,或者直接换行,实际使用中去除/后的空格即可。四、图片居中图片后面添加 #pic_cent

2021-01-24 00:03:14 235

原创 中科院自动化所第五届深度强化学习研讨会笔记

文章目录从数学与信息处理的视角看模仿学习一、Basis of Behaviour AI二、Mathematics and AIAI-Based Method VS. Control-BasedRL from Imperfect Supervision三、Research Prospects面向智能制造的认识计算与深度学习一、个人相关工作的介绍二、国内外现状及趋势分析Experience Replay in Deep Reinforcement Learning(深度强化学习中的经验回放机制)一、DRL1.1

2021-01-23 23:58:33 1114

原创 剑指offer做题笔记Java版(1-40)

剑指 Offer 03. 数组中重复的数字该题第一个想法使用HashSet实现时空复杂度都为O(n)的查重算法,然后看了题解可以用置换的方法实现时间复杂度为O(n),空间复杂度为O(1)的算法。主要思路:因为n个数的范围0~n-1且其中有重复,我们将每个数字都放在对应的下标上必会出现重复。所以从下标为i从0开始,如果 (i!=nums[i]) 依次将nums[i] 置换到对应的位置上,直至找到两个位置上有重复为止。剑指 Offer 04. 二维数组中的查找该题二维数组中查找数字,如果和惯性思维从矩阵的

2021-01-19 03:30:11 1228

原创 leetcode上java编程常用方法

有序列表List<Integer> list = new ArrayList();Collections.reverse(list);//翻转列表顺序哈希集合HashSet<Integer> set = new HashSet();set.contains()set.add()栈Deque<TreeNode> stack = new LinkedList();//也可以用 Stack<Integer> stack = new Stack(

2021-01-17 23:27:02 732 1

原创 MistGPU使用指南

使用按时收费的GPU服务器,往往需要配置环境,连接项目等操作。本笔记将描述如何连接MistGPU服务器,并安装相应conda虚拟环境,以及Pycharm项目同步。一、连接MistGPU服务器采用官网教程,在Ubuntu系统下直接使用ssh mist@gpu193.mistgpu.xyz -p 20900 命令进行连接二、拷贝本机conda环境conda activate your_envconda env export > your_env.yaml我使用的命令为:conda ac

2021-01-02 16:03:03 8609

原创 Jupyter Notebook学习笔记(2020-12-12)

代码段最左边的颜色命令模式 蓝色编辑模式 绿色命令模式——> 编辑模式 :Enter编辑模式——> 命令模式 :Esc快捷键shift+enter:运行并进入下一个代码块ctrl+enter:运行并在当前代码块在命令行模式下dd:删除当前代码块b:下方添加代码块a:上方添加代码块m:将编程语言代码块变成Markdown代码块y:将Markdown代码块变成编程代码块Markdown下的规则[内容](超链接)![图片名字](超链接)采用latex语法插入公式三个

2020-12-13 00:04:53 152

原创 图卷积神经网络(GCN)学习笔记

参考材料图卷积网络GCN详细介绍(强烈推荐!!!)https://blog.youkuaiyun.com/yyl424525/article/details/100058264图卷积神经网络简单理解 https://www.zhihu.com/column/p/71200936图卷积网络理解(可参考,内容和1极为相似,但有答主的个人理解)https://www.zhihu.com/question/54504471/answer/332657604图卷积网络(GCN)新手村完全指南 https://zh

2020-10-28 20:29:25 609

原创 强化学习课程笔记(三)——不基于模型的预测与控制

第四章 不基于模型的预测其中本章将聚焦于策略评估,也就是预测问题;下一章将利用本讲的主要观念来进行控制进而找出最优策略以及最有价值函数。本章分为三个部分,将分别从理论上阐述基于完整采样的蒙特卡罗强化学习、基于不完整采样的时序差分强化学习以及介于两者之间的 λ 时序差分强化学习。这部分内容比较抽象,在讲解理论的同时会通过一些精彩的实例来加深对概念和算法的理解。4.1蒙特卡罗强化学习蒙特卡罗强化学习 (Monte-Carlo reinforcement learning, MC 学习):指在不清楚 MD

2020-09-01 11:13:55 1121

原创 强化学习课程笔记(二)——马尔科夫决策过程和动态规划寻找最优策略

参考材料1.强化学习入门课程(英文)https://www.bilibili.com/video/av372950482.课程对应知乎讲解https://zhuanlan.zhihu.com/reinforce3.强化学习(莫烦)https://www.bilibili.com/video/BV13W411Y75P4.《强化学习入门——从原理到实践》-叶强第二章 马尔科夫决策过程当环境状态是完全可观测时,个体可以通过构建马尔科夫决策过程来描述整 个强化学习问题。有时候环境状态并不是完全可观测的,

2020-08-26 13:27:47 2986

原创 强化学习入门笔记(一)——莫烦Python

参考材料1.强化学习入门课程(英文)https://www.bilibili.com/video/av372950482.课程对应知乎讲解https://zhuanlan.zhihu.com/reinforce3.强化学习(莫烦)https://www.bilibili.com/video/BV13W411Y75P4.《强化学习入门——从原理到实践》-叶强莫烦Python强化学习整理1.Q-LearningQlearning 是一个离线学习的算法, 因为里面的max action让Q表的更新可

2020-08-26 13:12:22 1913

原创 洛谷P1004方格取数(四维动态规划)

代码:#include <stdio.h>int plat[10][10];int dp[11][11][11][11];int max(int a,int b,int c,int d){ int ans=a; if(b>ans)ans=b; if(c>ans)ans=c; if(d>ans)ans=d; return ans;}int main(){ int N; scanf("%d",&N);.

2020-05-22 15:32:00 268

东北大学软件学院软件测试课程资料

课程PPT和随堂测试相关资料

2021-07-16

东北大学软件学院软件工程课程资料

包含课程PPT和相关作业材料

2021-07-16

东北大学软件学院C++程序设计课程资料

资料包含课程PPT和学长写的作业代码 好好整,这门选修课当时都能拿到95+

2021-07-16

东北大学软件学院互联网金融导论课程资料

资料包括课程PPT和学长当时写的作业案例 这门课是互联网金融方向的选修课,给分不高

2021-07-16

东北大学软件学院计算机网络课程资料

资料主要包含课程PPT和中途两次小测的试卷和答案 计网要想拿高分,一定要好好听课,把PPT都看明白

2021-07-16

东北大学软件学院算法分析与设计课程资料

当时的授课老师是张莉老师,内容包含课程PPT和学长当时写的课程报告。

2021-07-16

东北大学软件学院数据库期末复习资料.zip

17级东大软院数据库课程的复习资料,包括上课的PPT和可能用得上的一些试题,供学弟学妹们参考。个人认为,计网、算法、数据库、操作系统这几门课一定要把上课讲得PPT学明白,完全理解。习题都理解并且会做,基本上能保证85+,至于想要更高分,那就需要天时地利人和,以及看你怎么卷了。

2021-01-29

Java帮助文档.zip

java1.6中文版帮助文档,可以查询函数的使用和基础类的说明

2021-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除