自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 强化学习——异策略的小细节

就能得到一个新的已知所有样本的平均值,最终随着我样本遍历完毕,我自然而然地得到了所有样本的平均值,而不需要一口气把所有样本的平均值都求出来。普通重要度采样是理论计算的结果,加权重要度采样是工程应用中对普通重要度采样的改造。这个可能稍微不好想一点,但是不是特别难,有兴趣的可以尝试参考引例的思想简单推导。代码中求解动作价值函数时,使用了加权重要度采样和增量式更新的求解方法。比起普通重要度采样的数理严谨,加权重要度采样更像是工程应用中的产物。,其实就是求平均数,只不过一个是直接平均,应该是加权平均。

2025-04-16 20:55:15 666

原创 强化学习——蒙特卡洛方法(2)同轨策略和离轨策略

•核心思想使用随机性策略(如ϵ\epsilonϵ-greedy,也叫ϵ\epsilonϵ-贪心)代替确定性策略,确保在训练过程中 所有动作都有非零概率被选择,从而自然覆盖状态-动作空间。ϵ\epsilonϵ-贪心策略以概率ϵ\epsilonϵ随机探索,以概率 (1-ϵ\epsilonϵ) 选择当前最优动作。•优势无需强制初始化,通过策略本身的随机性保证探索。•总结这个方法的实现方式很简单,只不过是把贪心换成了ϵ\epsilonϵ-贪心,这样就保证了尽可能访问更多的点。

2025-04-15 00:26:18 532

原创 [Err] [InsertModelWidget.cc:405] Missing model.config for model “其他工作期间”

明明在A_ws工作区间运行仿真,.bashrc中也没有B_ws的环境变量,但gazebo却取B_w下去寻找模型,简直就是NTR。编译A_ws时,在.bashrc中未清理B_ws的环境变量,导致A_ws和B_ws产生了神奇的依赖。保证.bashrc中没有B_ws的环境变量,重新编译A_ws。

2025-04-11 15:34:10 203

原创 melodic版本的turtlebot3

分支里没有了意味着官方不维护了,但是仍然可以在Tags找到源码。找README文件标记了支持melodic的版本,如图。分支中也已经没有melodic-devel了,如图。结果编译报错,因为默认已经是ROS2了。尝试下载main跑一下看看怎么个事。之前下载的地址失效了。

2025-04-10 23:50:19 155

原创 计算理论笔记2——正则语言的可计算性问题

引理:一个图灵机是可以模拟一台DFA的。ADFA​。

2025-04-09 16:58:31 440

原创 计算理论笔记

比如chatgpt的程序E有1亿行代码,我写了个1000行的代码的程序C调用chatgpt的API,实现了和chatgpt相同的功能,那么我的程序C比chatgpt的程序E要短。如果E能保证可以枚举出所有的极小的,那么我一定能找到一个比所谓的“极小的”还要小的,所以说,这样的E不存在。中,存在一个<B,w>使得H接受他也不对,拒绝他也不对。若语言 L 是图灵可识别的,则存在图灵机 R,对任意输入 w,若。中所有元素,要么拒绝要么接受的H是不存在的,即。图灵可识别:接受、拒绝、不停机;,则 R 接受 w;

2025-04-08 23:23:22 459

原创 强化学习——蒙特卡罗方法

蒙特卡罗方法是一种**无模型(Model-Free)**的强化学习方法,所谓无模型,就是不需要依赖环境动态模型(如转移概率矩阵Ps′∣saP(s′∣s,a)Ps′∣sa和奖励函数RsaR(s,a)Rsa的显式知识)。简单来说,我们前面来说的策略都是通过公式推导出动作价值函数QQQ,而蒙特卡洛可以直接通过观测数据来近似估计QQQ,这样就省略了模型。一个episode(回合/轨迹)是指智能体从状态s出发,采取动作a,然后按照策略π\piπ。

2025-04-07 16:53:07 433

原创 贝尔曼最优公式

贝尔曼最优公式,描述,当前状态的值函数与后续状态值函数之间的关系,Vπ∗​。这里听起来有点绕,求最优策略时的状态函数Vπ∗​,进而得到最优策略π∗,可是没有π∗如何求得Vπ∗​呢?这里我们不是先给定一个π∗,再求它的Vπ∗​,而是使用“值函数的自举”的方法迭代的求出Vπ∗​,这得益于贝尔曼最优公式这个方程符合Contraction Mapping。

2025-04-01 21:02:34 587

原创 强化学习笔记——贝尔曼公式

贝尔曼公式

2025-04-01 11:19:54 635

原创 【无标题】

vue版本太新导致的报错(猜测)

2024-12-20 19:30:21 128

原创 windows暂停更新

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/839cb20421d6489999dfc5aca24fcd25.png)回车,打开注册表编辑器如下图1、图2。在上图2绿色位置输入以下路径,并回车。右键新建DWORD(32位)名为。双击编辑该值,如下图3所示。(若本身存不用创建)

2024-11-25 13:55:40 181

原创 学习记录--Vue设置访问ip和端口

修改vite.config.js文件。

2024-11-23 11:18:27 341

原创 gmssl使用心得

使用gmssl生成证书申请文件时候,-C选项必须有效。

2024-09-21 14:26:41 332

原创 VScode远程连接报错 Resolver error: Error: Connecting with SSH timed out

导致VScode连接失败的原因有很多。该方法仅针对超时引起的报错。将默认的15s调大,例如如改为60s,具体时间因网速而异。路由器比较老,网速过慢导致连接超时。

2024-09-05 18:12:56 801

原创 协议和算法的区别

举一个贴近生活的例子,“我要从宿舍去教室那这书去图书馆二楼”这是一个协议。公交车,还是自行车,还是步行;这是算法协议一般不严格要求。如:TCP协议规定了传输之后要进行确认。但未规定如何确认,你可以逐条确认,也可以累积确认。

2024-08-29 23:24:28 314

原创 flask+bootstarp登录小案例

输入信息,点击登录以post方式提交表单,即可来到home界面(home界面待完善)python前后端交web_login.py).登录的html文件(登录css.html)python获取并print的表单信息。

2024-02-22 13:08:31 423 1

原创 算法:连通块

#include<iostream>#define MAX 10using namespace std;int n, m;int ans;int grass[MAX][MAX];//图矩阵 int vis[MAX][MAX];//标记矩阵 int nx[4][2] = {{0, 1}, {1, 0}, {-1, 0}, {0, -1}};//四方向 (上下左右)// grass[x][y] void dfs(int x, int y) { for (int i =.

2022-03-21 13:23:22 328

原创 (自用)配置GPU

查看是否安装驱动,输入 :nvidia-smi查看推荐的驱动,输入:ubuntu-drivers devices查看驱动类型,输入: sudo apt-get install nvidia-driver- (不回车双击tap键,查看所有版本选择一个安装)CUDA安装官网连接:CUDA Toolkit Archive | NVIDIA DeveloperCUDNN安装官网连接:CUDA Toolkit Archive | NVIDIA Developer..

2022-03-05 21:02:46 240

原创 ubuntu远程连接服务器

//例如接口号是22,服务器的home/中用户名是itsname,服务器ip是202.194.53.88(一定注意itsname不是自己的用户名,而是服务器上的)ssh -p 22 myname@202.194.53.88出现下列提示输入,输入itsname的密码即可...

2021-11-07 15:48:13 381

原创 ubuntu+darknet+yolov3训练自己数据

打开标注软件cd labelImgmake qt5py3python3 labelImg.py(如果没有标注软件,就下载一个)sudo apt-get install pyqt5-dev-toolssudo apt-get install python3-lxmlsudo apt-get install libxml2-dev libxslt-devsudo pip3 install lxmlgit clone https://gi...

2021-10-28 21:54:59 1491

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除