- 博客(50)
- 收藏
- 关注
原创 ML-Agents训练器配置-参数说明
使用ML-Agents工具包进行强化学习训练时,碰到了很多参数。本文根据ML-Agents toolkit的说明文档把这些参数整理了一遍,并加了一些自己的理解。
2025-04-02 16:28:42
1013
原创 【强化学习的数学原理】第10课-Actor-Critic方法-笔记
学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。
2025-02-19 15:45:21
706
2
原创 【强化学习的数学原理】第08课-值函数近似-笔记
vπsv_{\pi}(s)vπs是state value的真实值,vswvsw是state value的近似值。我们的目标是找到一个最优的www,使得对于每一个状态sssvswvsw都能最好地近似vπsv_{\pi}(s)vπs。为了寻找最优的www,我们定义如下目标函数:值得指出的是,SSS是一个随机变量,既然是一个随机变量,这个随机变量就是有概率分布的。那么S的概率分布是什么呢?有几种方式来定义S的概率分布。第一种方式是。
2025-02-17 21:24:45
867
原创 【强化学习的数学原理】第07课-时序差分方法-笔记
下图呈现了TD算法。TD算法在求解一个给定策略π\piπ的 state value,它是一种不基于模型、基于数据的方法。TD算法就是要基于给定策略π\piπ下,在生成的数据s0r1s1strt1st1s0r1s1...strt1st1...的基础上计算state value。vtsv_t(s)vts表示状态 s 在 t 时刻的 state value 估计值。sts_tst。
2025-02-16 20:01:03
674
原创 nolo sonic 2使用串流方式运行steamVR时报错301(VRApplicationError_IPCFailed)
最近换了一台新电脑,使用nolo sonic 2 VR眼镜,尝试和自己的笔记本通过串流方式连接steamVR。
2025-01-15 17:10:08
1124
原创 Unity使用脚本控制相机移动、旋转
考虑到以后可能经常需要用到这个功能,所以写篇博客记录下代码。我的代码参考自博客:https://www.cnblogs.com/forever3329/p/17798070.html。功能:键盘wasd控制前后左右平移,qe控制左右视角旋转,rf控制视角升降。
2024-12-11 11:13:18
1157
2
原创 【强化学习的数学原理】第06课-随机近似与随机梯度下降-笔记
首先,先回顾一下 mean estimation problem 是什么。假设有一个随机变量X,目标是要求其期望 E(X)。我们有一些采样数据x1x2xNx1x2...xN。期望可以用这N个采样值的平均来近似。那么,该如何计算这N个采样值的平均呢?有两种方法。第一种是先收集好所有的sample,再对这些sample求平均值。这种方法的缺陷是:所有的sample需要一段时间才能被采样完,所以需要等待一段时间。第二种方法采用了增量式的思想。
2024-11-26 15:38:51
1154
原创 【强化学习的数学原理】第05课-蒙特卡洛方法-笔记
之前提到的值迭代算法、策略迭代算法都属于model-based reinforcement learning,而蒙特卡洛方法属于model-free reinforcement learning。对于初学者来说,最难以理解的是,如何在没有模型的情况下去估计一些变量。其中有一个重要的思想就是 **Monte Carlo Estimation**。
2024-11-25 16:43:17
1023
2
原创 【强化学习的数学原理】第02课-贝尔曼公式-笔记
下图介绍了一些符号。注意:(1)Rt1R_{t+1}Rt1其实也可以写成RtR_{t}Rt,就是说在状态StS_{t}St下选择了动作AtA_{t}At,得到了奖励RtR_{t}Rt。这是说得通的,但一般都习惯性地写成Rt1R_{t+1}Rt1。(2)S、A、R都是随机变量,所以可以对它们求期望等操作。(3)这个single-step process是由概率分布决定的。(见下图三行蓝字)
2024-11-22 17:09:39
1574
2
原创 【强化学习】Actor-Critic算法
Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。Actor是利用策略梯度算法实现,Critic使用时序差分实现。Actor-Critic 算法的组成部分为:Actor(策略网络):Actor是策略函数πθsπ_θ(s)πθs,是一个神经网络,它负责在给定状态下选择动作,输出每个动作的概率分布。该网络的训练目标是最大化累计回报的期望。Critic(价值网络):Critic是值函数VπsV_π(s)Vπs。
2024-10-26 16:59:25
1051
1
原创 【强化学习】第01期:绪论
强化学习:通过与环境互动,获取环境反馈的样本;回报(作为监督),进行最优决策的机器学习。强化学习的过程可以用下图进行描述:在状态S1下选择动作a1,获取回报R1的同时跳转到状态S2;在状态S2下选择动作a2,获取回报R2的同时跳转到状态S3……如此循环下去。强化学习的目标就是:对于给定的状态S,我们能选一个比较好的动作a,使得回报最大。提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-06-27 23:32:59
1056
原创 meta quest2激活配对、开发者模式、设置sidequest下载应用过程记录
最近因学习需求,需要从sidequest上下载一些VR应用到meta quest2里。但是由于一些大家都知道的原因,quest2并不能正常联网。quest2到手后,本VR小白摸索了半天,最终成功解决激活配对、设置开发者模式、从sidequest上下载应用等问题。在此简单做一个记录。
2023-11-29 14:57:59
12030
原创 开源模型:小羊驼(Vicuna-13B),可达chatGPT九成效果。
以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,研究人员逐渐研发出基于LLaMA的Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型并开源。近日,研究者们又提出了一个新的模型:Vicuna(小羊驼)。该模型基于LLaMA,参数量13B。Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。
2023-04-03 10:12:21
17384
1
原创 自动代码生成:文献阅读和学习《A Deep Learning Model for Source Code Generation 》
这篇文章实现了python代码生成。在数据预处理阶段引入了抽象语法树AST来分析源代码,然后分别用LSTM和MLP两种方法来进行训练。这个模型能有效预测源代码的令牌序列(tokens),最后再使用astunparse模块或astor以一对一的通信方式把AST转换回源代码。
2023-03-29 16:01:21
290
原创 自动代码生成-文献综述阅读《Code Generation Using Machine Learning:A Systematic Review》
1.代码生成领域的主要研究内容:description-to-code、code-to-description、code-to-code。2.最流行的应用:code generation from natural language descriptions, documentation generation, and automatic program repair。3.最常用的机器学习方法:RNN、Transformer、CNN。
2023-03-28 15:54:59
1193
原创 【新手小白】在tensorflow中使用tensorboard的方法
在tensorflow框架中,用tensorboard实现scalars(图表)可视化。以及出现错误:No dashboards are active for the current data set的解决方案。
2023-03-26 14:24:59
1084
原创 C++动态内存分配、内存溢出/泄露、野指针/悬垂指针及代码实例
为什么需要进行动态内存分配、如何进行动态内存分配、C++内存机制(堆与栈的区别)、内存溢出/泄露、野指针/悬垂指针、结合代码实例分析“address of local variable 'px' returned [-Wreturn-local-addr]gcc”。
2023-03-14 16:42:07
441
原创 《深度学习入门》第7章实战:手写数字识别——卷积神经网络
最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第7章,这一章主要讲解的是卷积神经网络。卷积神经网络(Convolutional Neural Network, CNN)可以被用于图像识别、语音识别的各种场合。
2022-11-26 17:33:48
718
原创 《深度学习入门》第6章:与学习相关的技巧
笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第六章,这一章主要讲述了深度学习相关的技巧,包括权重参数最优化方法、寻找权重参数的初始值等等。下面,笔者将对书上的内容进行简要梳理。
2022-11-25 22:07:25
414
原创 《深度学习入门》第5章实战:手写数字识别——误差反向传播
误差反向传播法,是用来计算神经网络的权重参数的梯度的。**该方法旨在从后往前遍历一遍神经网络,从而能够计算出损失函数对网络中所有模型参数的梯度。
2022-11-25 20:20:08
1083
1
原创 《深度学习入门》第4章实战:手写数字识别
这篇文章根据《深度学习入门》第4章的内容,完成了手写数字识别这个小案例。这一章节的重点是,如何让神经网络“**学会学习**”。为了能够使得神经网络学会学习,将导入`损失函数`这一指标,找到使损失函数达到最小的权重参数。为了找出尽可能小的损失函数值,我们使用`梯度下降法`。
2022-11-19 17:11:34
1143
原创 《深度学习入门》第3章实战:手写数字识别
笔者最近阅读了《深度学习入门——基于Python的理论与实现》这本书的第三章,章节最后刚好有个手写数字识别的实战内容,于是就照着书本内容写了程序跑了一下,在此做个记录。
2022-11-18 09:50:33
1598
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人