自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 ML-Agents训练器配置-参数说明

使用ML-Agents工具包进行强化学习训练时,碰到了很多参数。本文根据ML-Agents toolkit的说明文档把这些参数整理了一遍,并加了一些自己的理解。

2025-04-02 16:28:42 1013

原创 【强化学习】近端策略优化算法(PPO)的理解

近端策略优化算法(PPO)的理解

2025-04-02 16:22:53 745

原创 【强化学习的数学原理】第10课-Actor-Critic方法-笔记

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。

2025-02-19 15:45:21 706 2

原创 【强化学习的数学原理】第09课-策略梯度方法-笔记

在表格情况下,如果在策略。

2025-02-18 16:06:05 904

原创 【强化学习的数学原理】第08课-值函数近似-笔记

vπsv_{\pi}(s)vπ​s是state value的真实值,vswvsw是state value的近似值。我们的目标是找到一个最优的www,使得对于每一个状态sssvswvsw都能最好地近似vπsv_{\pi}(s)vπ​s。为了寻找最优的www,我们定义如下目标函数:值得指出的是,SSS是一个随机变量,既然是一个随机变量,这个随机变量就是有概率分布的。那么S的概率分布是什么呢?有几种方式来定义S的概率分布。第一种方式是。

2025-02-17 21:24:45 867

原创 【强化学习的数学原理】第07课-时序差分方法-笔记

下图呈现了TD算法。TD算法在求解一个给定策略π\piπ的 state value,它是一种不基于模型、基于数据的方法。TD算法就是要基于给定策略π\piπ下,在生成的数据s0r1s1strt1st1s0​r1​s1​...st​rt1​st1​...的基础上计算state value。vtsv_t(s)vt​s表示状态 s 在 t 时刻的 state value 估计值。sts_tst​。

2025-02-16 20:01:03 674

原创 nolo sonic 2使用串流方式运行steamVR时报错301(VRApplicationError_IPCFailed)

最近换了一台新电脑,使用nolo sonic 2 VR眼镜,尝试和自己的笔记本通过串流方式连接steamVR。

2025-01-15 17:10:08 1124

原创 Unity使用脚本控制相机移动、旋转

考虑到以后可能经常需要用到这个功能,所以写篇博客记录下代码。我的代码参考自博客:https://www.cnblogs.com/forever3329/p/17798070.html。功能:键盘wasd控制前后左右平移,qe控制左右视角旋转,rf控制视角升降。

2024-12-11 11:13:18 1157 2

原创 首次投稿的教训与思考

第一次投稿经验与思考

2024-11-29 11:09:04 284

原创 【强化学习的数学原理】第06课-随机近似与随机梯度下降-笔记

首先,先回顾一下 mean estimation problem 是什么。假设有一个随机变量X,目标是要求其期望 E(X)。我们有一些采样数据x1x2xNx1​x2​...xN​。期望可以用这N个采样值的平均来近似。那么,该如何计算这N个采样值的平均呢?有两种方法。第一种是先收集好所有的sample,再对这些sample求平均值。这种方法的缺陷是:所有的sample需要一段时间才能被采样完,所以需要等待一段时间。第二种方法采用了增量式的思想。

2024-11-26 15:38:51 1154

原创 【强化学习的数学原理】第05课-蒙特卡洛方法-笔记

之前提到的值迭代算法、策略迭代算法都属于model-based reinforcement learning,而蒙特卡洛方法属于model-free reinforcement learning。对于初学者来说,最难以理解的是,如何在没有模型的情况下去估计一些变量。其中有一个重要的思想就是 **Monte Carlo Estimation**。

2024-11-25 16:43:17 1023 2

原创 【强化学习的数学原理】第04课-值迭代与策略迭代-笔记

算法起初有一个策略。

2024-11-24 17:51:55 892

原创 【强化学习的数学原理】第03课-贝尔曼最优公式-笔记

如上图所示。与贝尔曼公式有一些小小的差异,贝尔曼最优公式前面多了一个。

2024-11-23 18:19:59 776

原创 【强化学习的数学原理】第02课-贝尔曼公式-笔记

下图介绍了一些符号。注意:(1)Rt1R_{t+1}Rt1​其实也可以写成RtR_{t}Rt​,就是说在状态StS_{t}St​下选择了动作AtA_{t}At​,得到了奖励RtR_{t}Rt​。这是说得通的,但一般都习惯性地写成Rt1R_{t+1}Rt1​。(2)S、A、R都是随机变量,所以可以对它们求期望等操作。(3)这个single-step process是由概率分布决定的。(见下图三行蓝字)

2024-11-22 17:09:39 1574 2

原创 【强化学习】Actor-Critic算法

Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。Actor是利用策略梯度算法实现,Critic使用时序差分实现。Actor-Critic 算法的组成部分为:Actor(策略网络):Actor是策略函数πθsπ_θ(s)πθ​s,是一个神经网络,它负责在给定状态下选择动作,输出每个动作的概率分布。该网络的训练目标是最大化累计回报的期望。Critic(价值网络):Critic是值函数VπsV_π(s)Vπ​s。

2024-10-26 16:59:25 1051 1

原创 【强化学习】第02期:动态规划方法

强化学习动态规划方法,包括策略迭代、值迭代两种方法。

2024-06-28 21:46:51 1182 2

原创 【强化学习】第01期:绪论

强化学习:通过与环境互动,获取环境反馈的样本;回报(作为监督),进行最优决策的机器学习。强化学习的过程可以用下图进行描述:在状态S1下选择动作a1,获取回报R1的同时跳转到状态S2;在状态S2下选择动作a2,获取回报R2的同时跳转到状态S3……如此循环下去。强化学习的目标就是:对于给定的状态S,我们能选一个比较好的动作a,使得回报最大。提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-06-27 23:32:59 1056

原创 meta quest2激活配对、开发者模式、设置sidequest下载应用过程记录

最近因学习需求,需要从sidequest上下载一些VR应用到meta quest2里。但是由于一些大家都知道的原因,quest2并不能正常联网。quest2到手后,本VR小白摸索了半天,最终成功解决激活配对、设置开发者模式、从sidequest上下载应用等问题。在此简单做一个记录。

2023-11-29 14:57:59 12030

原创 【深度学习】学习过程中遇到的问题及解决

学习过程中遇到的问题

2023-04-24 10:32:09 2539

原创 开源模型:小羊驼(Vicuna-13B),可达chatGPT九成效果。

以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,研究人员逐渐研发出基于LLaMA的Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型并开源。近日,研究者们又提出了一个新的模型:Vicuna(小羊驼)。该模型基于LLaMA,参数量13B。Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。

2023-04-03 10:12:21 17384 1

原创 自动代码生成:文献阅读和学习《A Deep Learning Model for Source Code Generation 》

这篇文章实现了python代码生成。在数据预处理阶段引入了抽象语法树AST来分析源代码,然后分别用LSTM和MLP两种方法来进行训练。这个模型能有效预测源代码的令牌序列(tokens),最后再使用astunparse模块或astor以一对一的通信方式把AST转换回源代码。

2023-03-29 16:01:21 290

原创 自动代码生成-文献综述阅读《Code Generation Using Machine Learning:A Systematic Review》

1.代码生成领域的主要研究内容:description-to-code、code-to-description、code-to-code。2.最流行的应用:code generation from natural language descriptions, documentation generation, and automatic program repair。3.最常用的机器学习方法:RNN、Transformer、CNN。

2023-03-28 15:54:59 1193

原创 【新手小白】在tensorflow中使用tensorboard的方法

在tensorflow框架中,用tensorboard实现scalars(图表)可视化。以及出现错误:No dashboards are active for the current data set的解决方案。

2023-03-26 14:24:59 1084

原创 C++动态内存分配、内存溢出/泄露、野指针/悬垂指针及代码实例

为什么需要进行动态内存分配、如何进行动态内存分配、C++内存机制(堆与栈的区别)、内存溢出/泄露、野指针/悬垂指针、结合代码实例分析“address of local variable 'px' returned [-Wreturn-local-addr]gcc”。

2023-03-14 16:42:07 441

原创 一些实用的网站

一些实用网站,包括:图片素材网站、word使用高亮代码、消除/替换图像背景、ASCII艺术字(图)集

2023-01-21 12:24:03 132

原创 《深度学习入门》第7章实战:手写数字识别——卷积神经网络

最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第7章,这一章主要讲解的是卷积神经网络。卷积神经网络(Convolutional Neural Network, CNN)可以被用于图像识别、语音识别的各种场合。

2022-11-26 17:33:48 718

原创 《深度学习入门》第6章:与学习相关的技巧

笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第六章,这一章主要讲述了深度学习相关的技巧,包括权重参数最优化方法、寻找权重参数的初始值等等。下面,笔者将对书上的内容进行简要梳理。

2022-11-25 22:07:25 414

原创 《深度学习入门》第5章实战:手写数字识别——误差反向传播

误差反向传播法,是用来计算神经网络的权重参数的梯度的。**该方法旨在从后往前遍历一遍神经网络,从而能够计算出损失函数对网络中所有模型参数的梯度。

2022-11-25 20:20:08 1083 1

原创 《深度学习入门》第4章实战:手写数字识别

这篇文章根据《深度学习入门》第4章的内容,完成了手写数字识别这个小案例。这一章节的重点是,如何让神经网络“**学会学习**”。为了能够使得神经网络学会学习,将导入`损失函数`这一指标,找到使损失函数达到最小的权重参数。为了找出尽可能小的损失函数值,我们使用`梯度下降法`。

2022-11-19 17:11:34 1143

原创 《深度学习入门》第3章实战:手写数字识别

笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第三章,章节最后刚好有个手写数字识别的实战内容,于是就照着书本内容写了程序跑了一下,在此做个记录。

2022-11-18 09:50:33 1598 1

原创 【保研面试】网络安全基础

一些网络安全基础相关的问题,以作保研面试之用,在此分享给大家。

2022-09-30 12:26:57 3046

原创 【保研面试】计算机组成原理

博主暑期整理了一些计算机组成原理相关的问题,以作保研面试之用,在此分享给大家~

2022-09-30 11:44:50 1182

原创 【保研面试】操作系统

博主暑期整理了一些操作系统相关的问题,以作保研面试之用。在此分享给大家~

2022-09-30 11:29:41 704

原创 【保研面试】常问问题

一些保研面试中老师们常问的问题:你为什么选择我们学校、目前获得了哪些offer……

2022-09-30 10:46:50 210

原创 【保研面试】数据结构

一些数据结构相关的问题,以作保研面试之用

2022-09-29 23:06:23 776

原创 【保研面试】英语口语

一些英语口语相关的问题,以作保研面试之用

2022-09-29 22:17:08 1142

原创 【保研面试、期末复习】计算机网络

计算机网络相关的知识点,以作保研面试之用,也可以用来进行期末复习。参考教材《计算机网络》(第8版本,谢希仁)

2022-09-29 12:31:50 1628

原创 网络空间安全发展综述整理

网络空间安全发展综述整理

2022-08-19 16:06:30 1103

原创 【Java】二分搜索系列学习+例题

java二分搜索系列例题刷题总结

2022-08-04 21:51:31 849

原创 【Java】拓扑排序

java实现拓扑排序

2022-07-31 17:38:42 3321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除