rellvera-优快云博客

原创 ML-Agents训练器配置-参数说明

使用ML-Agents工具包进行强化学习训练时，碰到了很多参数。本文根据ML-Agents toolkit的说明文档把这些参数整理了一遍，并加了一些自己的理解。

2025-04-02 16:28:42 1013

原创【强化学习的数学原理】第10课-Actor-Critic方法-笔记

学习资料：bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。

2025-02-19 15:45:21 706 2

vπsv_{\pi}(s)vπs是state value的真实值，vswvsw是state value的近似值。我们的目标是找到一个最优的www，使得对于每一个状态sssvswvsw都能最好地近似vπsv_{\pi}(s)vπs。为了寻找最优的www，我们定义如下目标函数：值得指出的是，SSS是一个随机变量，既然是一个随机变量，这个随机变量就是有概率分布的。那么S的概率分布是什么呢？有几种方式来定义S的概率分布。第一种方式是。

2025-02-17 21:24:45 867

原创【强化学习的数学原理】第07课-时序差分方法-笔记

下图呈现了TD算法。TD算法在求解一个给定策略π\piπ的 state value，它是一种不基于模型、基于数据的方法。TD算法就是要基于给定策略π\piπ下，在生成的数据s0r1s1strt1st1s0r1s1...strt1st1...的基础上计算state value。vtsv_t(s)vts表示状态 s 在 t 时刻的 state value 估计值。sts_tst。

2025-02-16 20:01:03 674

原创 nolo sonic 2使用串流方式运行steamVR时报错301（VRApplicationError_IPCFailed）

最近换了一台新电脑，使用nolo sonic 2 VR眼镜，尝试和自己的笔记本通过串流方式连接steamVR。

2025-01-15 17:10:08 1124

原创 Unity使用脚本控制相机移动、旋转

考虑到以后可能经常需要用到这个功能，所以写篇博客记录下代码。我的代码参考自博客：https://www.cnblogs.com/forever3329/p/17798070.html。功能：键盘wasd控制前后左右平移，qe控制左右视角旋转，rf控制视角升降。

2024-12-11 11:13:18 1157 2

原创首次投稿的教训与思考

第一次投稿经验与思考

2024-11-29 11:09:04 284

原创【强化学习的数学原理】第06课-随机近似与随机梯度下降-笔记

首先，先回顾一下 mean estimation problem 是什么。假设有一个随机变量X，目标是要求其期望 E(X)。我们有一些采样数据x1x2xNx1x2...xN。期望可以用这N个采样值的平均来近似。那么，该如何计算这N个采样值的平均呢？有两种方法。第一种是先收集好所有的sample，再对这些sample求平均值。这种方法的缺陷是：所有的sample需要一段时间才能被采样完，所以需要等待一段时间。第二种方法采用了增量式的思想。

2024-11-26 15:38:51 1154

原创【强化学习的数学原理】第05课-蒙特卡洛方法-笔记

之前提到的值迭代算法、策略迭代算法都属于model-based reinforcement learning，而蒙特卡洛方法属于model-free reinforcement learning。对于初学者来说，最难以理解的是，如何在没有模型的情况下去估计一些变量。其中有一个重要的思想就是 **Monte Carlo Estimation**。

2024-11-25 16:43:17 1023 2

原创【强化学习的数学原理】第04课-值迭代与策略迭代-笔记

算法起初有一个策略。

2024-11-24 17:51:55 892

原创【强化学习的数学原理】第03课-贝尔曼最优公式-笔记

如上图所示。与贝尔曼公式有一些小小的差异，贝尔曼最优公式前面多了一个。

2024-11-23 18:19:59 776

原创【强化学习的数学原理】第02课-贝尔曼公式-笔记

下图介绍了一些符号。注意：（1）Rt1R_{t+1}Rt1其实也可以写成RtR_{t}Rt，就是说在状态StS_{t}St下选择了动作AtA_{t}At，得到了奖励RtR_{t}Rt。这是说得通的，但一般都习惯性地写成Rt1R_{t+1}Rt1。（2）S、A、R都是随机变量，所以可以对它们求期望等操作。（3）这个single-step process是由概率分布决定的。（见下图三行蓝字）

2024-11-22 17:09:39 1574 2

原创【强化学习】Actor-Critic算法

Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。Actor是利用策略梯度算法实现，Critic使用时序差分实现。Actor-Critic 算法的组成部分为：Actor（策略网络）：Actor是策略函数πθsπ_θ(s)πθs，是一个神经网络，它负责在给定状态下选择动作，输出每个动作的概率分布。该网络的训练目标是最大化累计回报的期望。Critic（价值网络）：Critic是值函数VπsV_π(s)Vπs。

2024-10-26 16:59:25 1051 1

原创【强化学习】第02期：动态规划方法

强化学习动态规划方法，包括策略迭代、值迭代两种方法。

2024-06-28 21:46:51 1182 2

原创【强化学习】第01期：绪论

强化学习：通过与环境互动，获取环境反馈的样本；回报（作为监督），进行最优决策的机器学习。强化学习的过程可以用下图进行描述：在状态S1下选择动作a1，获取回报R1的同时跳转到状态S2；在状态S2下选择动作a2，获取回报R2的同时跳转到状态S3……如此循环下去。强化学习的目标就是：对于给定的状态S，我们能选一个比较好的动作a，使得回报最大。提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-06-27 23:32:59 1056

原创 meta quest2激活配对、开发者模式、设置sidequest下载应用过程记录

最近因学习需求，需要从sidequest上下载一些VR应用到meta quest2里。但是由于一些大家都知道的原因，quest2并不能正常联网。quest2到手后，本VR小白摸索了半天，最终成功解决激活配对、设置开发者模式、从sidequest上下载应用等问题。在此简单做一个记录。

2023-11-29 14:57:59 12030

原创【深度学习】学习过程中遇到的问题及解决

学习过程中遇到的问题

2023-04-24 10:32:09 2539

原创开源模型：小羊驼（Vicuna-13B），可达chatGPT九成效果。

以 Meta 开源 LLaMA（直译为「大羊驼」）系列模型为起点，研究人员逐渐研发出基于LLaMA的Alpaca（羊驼）、Alpaca-Lora、Luotuo（骆驼）等轻量级类 ChatGPT 模型并开源。近日，研究者们又提出了一个新的模型：Vicuna（小羊驼）。该模型基于LLaMA，参数量13B。Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。

2023-04-03 10:12:21 17384 1

原创自动代码生成：文献阅读和学习《A Deep Learning Model for Source Code Generation 》

这篇文章实现了python代码生成。在数据预处理阶段引入了抽象语法树AST来分析源代码，然后分别用LSTM和MLP两种方法来进行训练。这个模型能有效预测源代码的令牌序列（tokens），最后再使用astunparse模块或astor以一对一的通信方式把AST转换回源代码。

2023-03-29 16:01:21 290

原创自动代码生成-文献综述阅读《Code Generation Using Machine Learning:A Systematic Review》

1.代码生成领域的主要研究内容：description-to-code、code-to-description、code-to-code。2.最流行的应用：code generation from natural language descriptions, documentation generation, and automatic program repair。3.最常用的机器学习方法：RNN、Transformer、CNN。

2023-03-28 15:54:59 1193