- 博客(13)
- 收藏
- 关注
原创 PYTORCH使用中遇到的问题(1)
之前因为各种问题进度停滞了很久,把pytorch装下来之后现在发现有很大问题了,pytorch装在了base环境里并且能够正常加载,但是在我自己需要使用的环境里面,pytorch无法载入。并且我的虚拟环境中的python是随着anaconda打包下来的,这也就导致我的python已经被升到了3.13.x这么高的版本,跟旧版本的pytorch兼容可能出现了问题。同时,官方站里的pip链接也失效了。
2025-02-25 22:08:17
148
1
原创 ubuntu18.04使用过程中的一些问题(3)
整个流程耗费了一周,整体而言并不是非常顺利,装系统和配环境花了非常久的时间,现在也没有解决无线网的问题。经过长时间的尝试之后,WIFI的问题依旧没有解决。但是换一个思路想,当我需要用电脑的时候手机肯定待在身边,所以我直接用USB线有线连接了,就当是给电脑多接一个外设(说实话多少有点麻烦)原因大概是升级了内核之后的一些冲突,如果切换回旧的内核的话,网络就可以正常连接,但是显卡驱动又没了。重启之后可以看到有效,但是我的WIFI又掉了,又得解决WIFI的问题,之前的方法现在失效了,要换一种方案了。
2025-01-20 09:36:02
213
原创 强化学习笔记(西湖大学课程)第五节
已知系统模型,将VK带入之后得到有最大的qk,最优的策略即选取qk最大的action,其他的action都是0(如果有多个qk相同的action,则可以任意选取,在数学上都可以达到最优),求qk,选qk最大的action即是最优策略。先随机取定一个策略,在通过计算SV判定策略的优劣性,之后用SV去更新策略,将更新后的策略带回到第一步之中继续计算SV,最终可以让策略不断趋近于最优。则有可能存在一个中间步,将这一步所得到的值直接提取出来,直接放到进入下一个迭代过程,这里即是所谓的截断策略迭代。
2024-09-06 10:15:10
448
原创 强化学习笔记(西湖大学课程)第二节
更严谨的说法是,回报依赖于当前的状态和动作和下一状态,但是由于下一状态可以由当前状态和动作的条件概率来表示,因此可以将其以当前状态和动作来表示。episode:有终止状态的一条轨迹(还有持续性的轨迹,在到达目标点后仍然继续)(两者可以相互转化)(不将目标区别对待,更加一般化)state transition:状态转移(初始状态,动作,结束状态的表达式)会对应一个表格(表示确定性的情况)trajectory:轨迹:状态 动作 回报链(在一条链上的所有状态动作回报的集合)在马尔科夫决策过程中正式定义有关概念。
2024-09-03 08:00:00
254
原创 C++小白的第一个程序:基于图形界面的扫雷
作为一个从未接触过C++的大一编程小白,自己写一个能够运行的游戏程序是一个看起来非常有难度的事情,事实也的确如此。从学习C++开始到写出基本上能够运行的程序,我只有四周的时间,因此做出来的实际效果与我心中所期待的还是有比较大的差距,整个游戏的可玩性也并不算高,只是粗略地展现了自己对于c++和编程一点粗浅的理解罢了。接下来我将展示一部分游戏中实现的功能和一些我在编写过程中遇到的问题,希望各位大佬不吝赐教。
2023-11-15 21:30:57
162
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人