- 博客(24)
- 资源 (1)
- 收藏
- 关注
原创 配置VS-Code Python环境
配置VS-Code Python环境外部库跳转内部跳转安装CoPilot外部库跳转Cmd + Shift + P输入并选择「Python: Select Interpreter 」输入venv文件夹路径内部跳转点击Extensions下载C/C++套件、下载Python套件安装CoPilot学生认证: https://dev.to/twizelissa/how-to-enable-github-copilot-for-free-as-student-4kal下载 Github
2023-05-04 11:46:59
162
原创 np.take_along_axis 多维数组的索引
代码a = np.arange(2*3*4)a = d.reshape([2,3,4])b = np.zeros([2,3,1]).astype('int)c = np.take_along_axis(a,b,-1)结果a.shape = (2, 3, 4)b.shape = (2, 3, 1)c,shape = (2, 3, 1)a = array([[ [ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10,
2022-04-08 17:27:19
1133
原创 THE INFORMATION GEOMETRY OF UNSUPERVISED REINFORCEMENT LEARNING
核心贡献发现以最大化互信息的方法训练RL无法学到所有奖励函数的最优解 (无论z数量)发现以最大化互信息的方法预训练RL并以自然梯度的方法微调可以最小化regret以几何的方式刻画最大化互信息算法流程mutual information skill learning (MISL)maxz,θI(s;z)=maxp(z),θEp(s,z)[logρπθ(s∣z)−logρπθ(s)]=maxp(z)Ep(z)[DKL(ρ(s∣z)∣∣ρ(s))]\max_{z,\theta} I.
2022-03-21 21:34:04
187
原创 Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review
基本概念轨迹概率 (轨迹τ\tauτ出现的概率)p(τ)=p(s1)Πtp(at∣st)p(st+1∣st,at)p(\tau) = p(s_1)\Pi_tp(a_t|s_t)p(s_{t+1}|s_t,a_t)p(τ)=p(s1)Πtp(at∣st)p(st+1∣st,at)随机变量OOO (是因为最优决策而非不小心_{而非不小心}而非不小心选到动作a的概率)p(Ot∣st,at)=exp(r(st,at))p(O_t|s_t,a_t) = \exp(r(s_t..
2022-03-14 22:35:24
663
原创 配置smac环境
StarCraftII 4.10unzip SC2.4.10.zip # password is iagreetotheeuladownload SMAC Maps, and move it to ~/StarCraftII/Maps/.To use a stableid, copy stableid.json from https://github.com/Blizzard/s2client-proto.git to ~/StarCraftII/.echo $SHELLvim
2022-03-11 17:04:50
653
原创 强化学习论文笔记 (2)
IMPALA参考网站: 1Curriculum Learning概述: 藉由拓扑式的课程设计(可视为数据集的选取)、提升模型效果与收敛速度并增强泛化能力相关工作continuation_method (没有理论收敛保证、但实际通常可用) : 欲优化参数集CCC、首先优化Cλ=0(θ)C_{\lambda=0}(\theta)Cλ=0(θ)、接着逐渐增加难度λ\lambdaλ到Cλ=1(θ)C_{\lambda=1}(\theta)Cλ=1(θ),其间确保θ\thetaθ取值使得CλC_
2022-03-02 15:43:02
829
原创 强化学习论文笔记 (1)
TRPO摘要: 找到更新参数的方法使得期望效用不减(策略梯度若学习率选择不好更新后可能效用更低)效用函数 η(π)=Es0,s1...(∑t=0∞γtR(st))\eta(\pi)=E_{s0,s1...}(\sum_{t=0}^\infty\gamma^tR(s_t))η(π)=Es0,s1...(∑t=0∞γtR(st))引理: η(π′)=η(π)+Es,a∼π′(∑t=0∞γtAπ(st,at))\eta(\pi')=\eta(\pi)+E_{s,a\sim\pi'}(\sum_{t=
2022-03-02 15:41:39
287
原创 数值分析与算法 (2)
微分方程欧拉法前向欧拉: yn+1=yn+hf(xn,yn)y_{n+1} = y_n + hf(x_n, y_n)yn+1=yn+hf(xn,yn)后退欧拉: yn+1=yn+hf(xn+1,yn+1)y_{n+1} = y_n + hf(x_{n+1}, y_{n+1})yn+1=yn+hf(xn+1,yn+1)两步欧拉: yn+1=yn−1+2hf(xn,yn)y_{n+1} = y_{n-1} + 2hf(x_n, y_n)yn+1=yn−1+2hf(xn,yn)变
2022-03-02 15:37:19
2580
原创 数值分析与算法 (1)
插值拉格朗日 :Ln(xi)=yi,i=0,1...nL_n(x_i) = y_i, i=0,1...nLn(xi)=yi,i=0,1...n , 其中LnL_nLn为≤n\leq n≤n次多项式解答Ln(x)=l0(x)⋅y0+l1(x)⋅y1+...+ln(x)⋅ynli(x)=w(x)w′(xi)⋅(x−xi)L_n(x) = l_0(x)\cdot y_0 + l_1(x)\cdot y_1 + ... + l_n(x)\cdot y_n \\l_i(x) = \frac{w(x
2022-03-02 15:36:32
618
原创 数字图像处理
基础人眼与相机ISO : 大、对入射光的敏感性、放大噪声光圈大: 进光量大、景深小、背景模糊红眼: 视网膜是橘红色主观亮度是光强的对数函数数字图像图像坐标系逆时针转90度,就是常见的坐标系最近邻插值、双线性插值、双三次插值(16个顶点)D4D_4D4曼哈顿距离、D8D_8D8棋盘格距离(包含斜对角线)图像增强改善图像,以便于人的观看或自动的图像分析与识别灰度变换反色: s=1−rs= 1-rs=1−r幂函数: s=rγs = r^\gammas=rγ、 γ
2022-03-02 15:19:16
2894
原创 计算机网络
概述因特网三要素: 设备、协议、服务设备: 主机端系统、链路、交换设备(路由器、交换机)协议: 报文的格式和次序、发送/接收报文以及其它事件所采取的动作网络边缘CS结构 : 服务器总是开机且有固定周知的IP地址、客户机动态IP地址P2P结构: 对等点地位相同(轮流当CS)、资源利用充分网络性能指标往返时间(RTT): 发送到接收时间(容易测量)时延传播时延Propagation = 距离 / 光速传输时延Transmission= (大小/带宽) * 跳数排队时延Que
2022-03-02 15:09:32
2423
原创 Reinforcement Learning an introduction (2)
函数逼近目标函数定义: 目标函数VEˉ(w)=∑sμ(s)[vπ(s)−v^(s,w)]2μ(s)=η(s)∑s′η(s′)\bar{VE}(w) = \sum_s \mu(s)[v_\pi(s) - \hat v(s,w)]^2 \\\mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}VEˉ(w)=s∑μ(s)[vπ(s)−v^(s,w)]2μ(s)=∑s′η(s′)η(s)其中η(s)\eta(s)η(s)定义为状态sss出现的概率、最小化损失
2022-03-02 15:01:22
448
原创 Reinforcement Learning an introduction (1)
基础知识马可夫性质数学解释:P(st+1,rt+1∣st,at)=P(st+1,rt+1∣s0,a0,s1,a1,...,st,at)P(s_{t+1},r_{t+1}|s_t,a_t) = P(s_{t+1},r_{t+1}|s_0,a_0,s_1,a_1,...,s_t,a_t)P(st+1,rt+1∣st,at)=P(st+1,rt+1∣s0,a0,s1,a1,...,st,at)理解: 下个状态只取决于当前状态与动作,与历史无关当环境不满足马可夫性质
2022-03-02 14:57:11
523
原创 env.render()报错
执行env.render()时报错pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to “None”将运行指令改为xvfb-run -s "-screen 0 1400x900x24" xxx.py
2022-02-28 17:31:50
1102
原创 Latex trick
Overleaf 中文编辑正常情况下overleaf中输入中文按recompile无法显示,解决方法如下:点击menu->Setting//Compiler 选择 XeLaTex添加代码\usepackage{ctex}title觉得title太占地方,可添加代码\title{Alphafold2\vspace{-2cm}}\author{}\date{}其中{}代表醭显示响应内容,\vspace{-2cm}代表压缩标题到第一行的间距...
2022-02-27 13:14:27
292
原创 gym wrapper
import gymclass myWrapper(gym.Wrapper): def __init__(self, env): gym.Wrapper.__init__(self, env) def reset(self, addition=None, **kwargs): obs_n = self.env.reset(**kwargs) return obs_n def step(self, actions):
2022-02-25 11:54:54
311
原创 创建虚拟环境
# 安装pip install virtualenv# 创建名为test的虚拟环境virtualenv testpython3 -m test# 激活环境source test/bin/activate# 退出虚拟环境deactivate
2022-02-25 10:36:51
741
原创 cv2射影变换
效果图变换前变换后代码import cv2import numpy as npimg = cv2.imread('img.jpg')h,w,c = img.shape # 480, 640, 3# 依序是左上、右上、右下、左下 (顺序不重要)before = np.array([[110,240],[532,240],[637,464],[3,464]], dtype='float32')after = np.array([[0,0],[w-1,0],[w-1,h-1],[
2022-02-23 14:19:14
2196
原创 已知一棵有n个节点的树,其叶子节点个数为x,求该树对应二叉树中无右孩子结点个数
Ans: n-x+1证明:n个节点的树,有n-1个边由于叶子节点个数为x,此树有n-x个非叶结点每个非叶结点有且仅有一个长子,对应二叉树有n-x左向边右向边 = 总边数 - 左向边 = (n-1) - (n-x) = x-1总共有n个点,其中只有x-1个点有右孩子,剩下的n-x+1个点没有右孩子(即证)...
2021-01-07 12:26:50
1935
1
competition_economySafty.ipynb
2020-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人