台XX-优快云博客

原创我常用的docker命令

docker run -it --privileged --name centos3 centos_openssl:1 /usr/sbin/init (百分百黑屏)其中：container-name 是容器的名称， host-port 是主机端口， container-port 是容器端口， im-name:tag 镜像名称和标签。docker commit 容器ID或容器名称新镜像名称:新镜像标签。docker cp /路径/文件名容器ID:/上传路径。一定要使用root用户。

2025-07-09 11:59:26 305

原创强化学习——异策略的小细节

就能得到一个新的已知所有样本的平均值，最终随着我样本遍历完毕，我自然而然地得到了所有样本的平均值，而不需要一口气把所有样本的平均值都求出来。普通重要度采样是理论计算的结果，加权重要度采样是工程应用中对普通重要度采样的改造。这个可能稍微不好想一点，但是不是特别难，有兴趣的可以尝试参考引例的思想简单推导。代码中求解动作价值函数时，使用了加权重要度采样和增量式更新的求解方法。比起普通重要度采样的数理严谨，加权重要度采样更像是工程应用中的产物。，其实就是求平均数，只不过一个是直接平均，应该是加权平均。

2025-04-16 20:55:15 1046

原创强化学习——蒙特卡洛方法(2)同轨策略和离轨策略

•核心思想使用随机性策略（如ϵ\epsilonϵ-greedy，也叫ϵ\epsilonϵ-贪心）代替确定性策略，确保在训练过程中所有动作都有非零概率被选择，从而自然覆盖状态-动作空间。ϵ\epsilonϵ-贪心策略以概率ϵ\epsilonϵ随机探索，以概率 (1-ϵ\epsilonϵ) 选择当前最优动作。•优势无需强制初始化，通过策略本身的随机性保证探索。•总结这个方法的实现方式很简单，只不过是把贪心换成了ϵ\epsilonϵ-贪心，这样就保证了尽可能访问更多的点。

2025-04-15 00:26:18 748

原创 [Err] [InsertModelWidget.cc:405] Missing model.config for model “其他工作期间”

明明在A_ws工作区间运行仿真，.bashrc中也没有B_ws的环境变量，但gazebo却取B_w下去寻找模型，简直就是NTR。编译A_ws时，在.bashrc中未清理B_ws的环境变量，导致A_ws和B_ws产生了神奇的依赖。保证.bashrc中没有B_ws的环境变量，重新编译A_ws。

2025-04-11 15:34:10 330

原创 melodic版本的turtlebot3

分支里没有了意味着官方不维护了，但是仍然可以在Tags找到源码。找README文件标记了支持melodic的版本，如图。分支中也已经没有melodic-devel了，如图。结果编译报错，因为默认已经是ROS2了。尝试下载main跑一下看看怎么个事。之前下载的地址失效了。

2025-04-10 23:50:19 221

原创计算理论笔记2——正则语言的可计算性问题

引理：一个图灵机是可以模拟一台DFA的。ADFA。

2025-04-09 16:58:31 529

原创计算理论笔记

比如chatgpt的程序E有1亿行代码，我写了个1000行的代码的程序C调用chatgpt的API，实现了和chatgpt相同的功能，那么我的程序C比chatgpt的程序E要短。如果E能保证可以枚举出所有的极小的，那么我一定能找到一个比所谓的“极小的”还要小的，所以说，这样的E不存在。中，存在一个<B,w>使得H接受他也不对，拒绝他也不对。若语言 L 是图灵可识别的，则存在图灵机 R，对任意输入 w，若。中所有元素，要么拒绝要么接受的H是不存在的，即。图灵可识别：接受、拒绝、不停机；，则 R 接受 w；

2025-04-08 23:23:22 527

原创强化学习——蒙特卡罗方法

蒙特卡罗方法是一种**无模型（Model-Free）**的强化学习方法，所谓无模型，就是不需要依赖环境动态模型（如转移概率矩阵Ps′∣saP(s′∣s,a)Ps′∣sa和奖励函数RsaR(s,a)Rsa的显式知识）。简单来说，我们前面来说的策略都是通过公式推导出动作价值函数QQQ，而蒙特卡洛可以直接通过观测数据来近似估计QQQ，这样就省略了模型。一个episode（回合/轨迹）是指智能体从状态s出发，采取动作a，然后按照策略π\piπ。

2025-04-07 16:53:07 770

原创贝尔曼最优公式

贝尔曼最优公式，描述，当前状态的值函数与后续状态值函数之间的关系，Vπ∗。这里听起来有点绕，求最优策略时的状态函数Vπ∗，进而得到最优策略π∗，可是没有π∗如何求得Vπ∗呢？这里我们不是先给定一个π∗，再求它的Vπ∗，而是使用“值函数的自举”的方法迭代的求出Vπ∗，这得益于贝尔曼最优公式这个方程符合Contraction Mapping。

2025-04-01 21:02:34 732

原创强化学习笔记——贝尔曼公式

贝尔曼公式

2025-04-01 11:19:54 935

原创【无标题】

vue版本太新导致的报错（猜测）

2024-12-20 19:30:21 221

原创 windows暂停更新

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/839cb20421d6489999dfc5aca24fcd25.png)回车，打开注册表编辑器如下图1、图2。在上图2绿色位置输入以下路径，并回车。右键新建DWORD(32位)名为。双击编辑该值,如下图3所示。（若本身存不用创建）

2024-11-25 13:55:40 399

原创学习记录--Vue设置访问ip和端口

修改vite.config.js文件。

2024-11-23 11:18:27 537

原创 gmssl使用心得

使用gmssl生成证书申请文件时候，-C选项必须有效。

2024-09-21 14:26:41 524

原创 VScode远程连接报错 Resolver error: Error: Connecting with SSH timed out

导致VScode连接失败的原因有很多。该方法仅针对超时引起的报错。将默认的15s调大，例如如改为60s，具体时间因网速而异。路由器比较老，网速过慢导致连接超时。

2024-09-05 18:12:56 1262

原创协议和算法的区别

举一个贴近生活的例子，“我要从宿舍去教室那这书去图书馆二楼”这是一个协议。公交车，还是自行车，还是步行；这是算法协议一般不严格要求。如：TCP协议规定了传输之后要进行确认。但未规定如何确认，你可以逐条确认，也可以累积确认。

2024-08-29 23:24:28 395

原创 flask+bootstarp登录小案例

输入信息,点击登录以post方式提交表单,即可来到home界面(home界面待完善)python前后端交web_login.py).登录的html文件(登录css.html)python获取并print的表单信息。

2024-02-22 13:08:31 490 1

原创算法：连通块

#include<iostream>#define MAX 10using namespace std;int n, m;int ans;int grass[MAX][MAX];//图矩阵 int vis[MAX][MAX];//标记矩阵 int nx[4][2] = {{0, 1}, {1, 0}, {-1, 0}, {0, -1}};//四方向（上下左右）// grass[x][y] void dfs(int x, int y) { for (int i =.

2022-03-21 13:23:22 375

原创（自用）配置GPU

查看是否安装驱动，输入：nvidia-smi查看推荐的驱动，输入：ubuntu-drivers devices查看驱动类型，输入： sudo apt-get install nvidia-driver- （不回车双击tap键，查看所有版本选择一个安装）CUDA安装官网连接：CUDA Toolkit Archive | NVIDIA DeveloperCUDNN安装官网连接：CUDA Toolkit Archive | NVIDIA Developer..

2022-03-05 21:02:46 275

原创 ubuntu远程连接服务器

//例如接口号是22，服务器的home/中用户名是itsname，服务器ip是202.194.53.88（一定注意itsname不是自己的用户名，而是服务器上的）ssh -p 22 myname@202.194.53.88出现下列提示输入，输入itsname的密码即可...

2021-11-07 15:48:13 423

m0_53807457的博客