- 博客(20)
- 收藏
- 关注
原创 强化学习——异策略的小细节
就能得到一个新的已知所有样本的平均值,最终随着我样本遍历完毕,我自然而然地得到了所有样本的平均值,而不需要一口气把所有样本的平均值都求出来。普通重要度采样是理论计算的结果,加权重要度采样是工程应用中对普通重要度采样的改造。这个可能稍微不好想一点,但是不是特别难,有兴趣的可以尝试参考引例的思想简单推导。代码中求解动作价值函数时,使用了加权重要度采样和增量式更新的求解方法。比起普通重要度采样的数理严谨,加权重要度采样更像是工程应用中的产物。,其实就是求平均数,只不过一个是直接平均,应该是加权平均。
2025-04-16 20:55:15
666
原创 强化学习——蒙特卡洛方法(2)同轨策略和离轨策略
•核心思想使用随机性策略(如ϵ\epsilonϵ-greedy,也叫ϵ\epsilonϵ-贪心)代替确定性策略,确保在训练过程中 所有动作都有非零概率被选择,从而自然覆盖状态-动作空间。ϵ\epsilonϵ-贪心策略以概率ϵ\epsilonϵ随机探索,以概率 (1-ϵ\epsilonϵ) 选择当前最优动作。•优势无需强制初始化,通过策略本身的随机性保证探索。•总结这个方法的实现方式很简单,只不过是把贪心换成了ϵ\epsilonϵ-贪心,这样就保证了尽可能访问更多的点。
2025-04-15 00:26:18
532
原创 [Err] [InsertModelWidget.cc:405] Missing model.config for model “其他工作期间”
明明在A_ws工作区间运行仿真,.bashrc中也没有B_ws的环境变量,但gazebo却取B_w下去寻找模型,简直就是NTR。编译A_ws时,在.bashrc中未清理B_ws的环境变量,导致A_ws和B_ws产生了神奇的依赖。保证.bashrc中没有B_ws的环境变量,重新编译A_ws。
2025-04-11 15:34:10
203
原创 melodic版本的turtlebot3
分支里没有了意味着官方不维护了,但是仍然可以在Tags找到源码。找README文件标记了支持melodic的版本,如图。分支中也已经没有melodic-devel了,如图。结果编译报错,因为默认已经是ROS2了。尝试下载main跑一下看看怎么个事。之前下载的地址失效了。
2025-04-10 23:50:19
155
原创 计算理论笔记
比如chatgpt的程序E有1亿行代码,我写了个1000行的代码的程序C调用chatgpt的API,实现了和chatgpt相同的功能,那么我的程序C比chatgpt的程序E要短。如果E能保证可以枚举出所有的极小的,那么我一定能找到一个比所谓的“极小的”还要小的,所以说,这样的E不存在。中,存在一个<B,w>使得H接受他也不对,拒绝他也不对。若语言 L 是图灵可识别的,则存在图灵机 R,对任意输入 w,若。中所有元素,要么拒绝要么接受的H是不存在的,即。图灵可识别:接受、拒绝、不停机;,则 R 接受 w;
2025-04-08 23:23:22
459
原创 强化学习——蒙特卡罗方法
蒙特卡罗方法是一种**无模型(Model-Free)**的强化学习方法,所谓无模型,就是不需要依赖环境动态模型(如转移概率矩阵Ps′∣saP(s′∣s,a)Ps′∣sa和奖励函数RsaR(s,a)Rsa的显式知识)。简单来说,我们前面来说的策略都是通过公式推导出动作价值函数QQQ,而蒙特卡洛可以直接通过观测数据来近似估计QQQ,这样就省略了模型。一个episode(回合/轨迹)是指智能体从状态s出发,采取动作a,然后按照策略π\piπ。
2025-04-07 16:53:07
433
原创 贝尔曼最优公式
贝尔曼最优公式,描述,当前状态的值函数与后续状态值函数之间的关系,Vπ∗。这里听起来有点绕,求最优策略时的状态函数Vπ∗,进而得到最优策略π∗,可是没有π∗如何求得Vπ∗呢?这里我们不是先给定一个π∗,再求它的Vπ∗,而是使用“值函数的自举”的方法迭代的求出Vπ∗,这得益于贝尔曼最优公式这个方程符合Contraction Mapping。
2025-04-01 21:02:34
587
原创 windows暂停更新
在这里插入图片描述](https://i-blog.csdnimg.cn/direct/839cb20421d6489999dfc5aca24fcd25.png)回车,打开注册表编辑器如下图1、图2。在上图2绿色位置输入以下路径,并回车。右键新建DWORD(32位)名为。双击编辑该值,如下图3所示。(若本身存不用创建)
2024-11-25 13:55:40
181
原创 VScode远程连接报错 Resolver error: Error: Connecting with SSH timed out
导致VScode连接失败的原因有很多。该方法仅针对超时引起的报错。将默认的15s调大,例如如改为60s,具体时间因网速而异。路由器比较老,网速过慢导致连接超时。
2024-09-05 18:12:56
801
原创 协议和算法的区别
举一个贴近生活的例子,“我要从宿舍去教室那这书去图书馆二楼”这是一个协议。公交车,还是自行车,还是步行;这是算法协议一般不严格要求。如:TCP协议规定了传输之后要进行确认。但未规定如何确认,你可以逐条确认,也可以累积确认。
2024-08-29 23:24:28
314
原创 flask+bootstarp登录小案例
输入信息,点击登录以post方式提交表单,即可来到home界面(home界面待完善)python前后端交web_login.py).登录的html文件(登录css.html)python获取并print的表单信息。
2024-02-22 13:08:31
423
1
原创 算法:连通块
#include<iostream>#define MAX 10using namespace std;int n, m;int ans;int grass[MAX][MAX];//图矩阵 int vis[MAX][MAX];//标记矩阵 int nx[4][2] = {{0, 1}, {1, 0}, {-1, 0}, {0, -1}};//四方向 (上下左右)// grass[x][y] void dfs(int x, int y) { for (int i =.
2022-03-21 13:23:22
328
原创 (自用)配置GPU
查看是否安装驱动,输入 :nvidia-smi查看推荐的驱动,输入:ubuntu-drivers devices查看驱动类型,输入: sudo apt-get install nvidia-driver- (不回车双击tap键,查看所有版本选择一个安装)CUDA安装官网连接:CUDA Toolkit Archive | NVIDIA DeveloperCUDNN安装官网连接:CUDA Toolkit Archive | NVIDIA Developer..
2022-03-05 21:02:46
240
原创 ubuntu远程连接服务器
//例如接口号是22,服务器的home/中用户名是itsname,服务器ip是202.194.53.88(一定注意itsname不是自己的用户名,而是服务器上的)ssh -p 22 myname@202.194.53.88出现下列提示输入,输入itsname的密码即可...
2021-11-07 15:48:13
381
原创 ubuntu+darknet+yolov3训练自己数据
打开标注软件cd labelImgmake qt5py3python3 labelImg.py(如果没有标注软件,就下载一个)sudo apt-get install pyqt5-dev-toolssudo apt-get install python3-lxmlsudo apt-get install libxml2-dev libxslt-devsudo pip3 install lxmlgit clone https://gi...
2021-10-28 21:54:59
1491
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人