- 博客(8)
- 收藏
- 关注
原创 解决 Windows下“8080“端口占用问题
端口8080一般是用于HTTP代理服务,代理服务器通过此端口接收客户端的请求,许多开发者在本地测试应用的时候使用端口8080来运行web服务,遇到端口被占用,因此,可以采用这种方法来解决。
2025-01-07 09:48:26
1282
原创 【强化学习笔记】
概率是结果还没有产生之前,会根据现有环境的性质(参数)预测某件事件发生的概率似然是概率的相反,它是根据已经确定的结果来推测产生这个结果的可能环境(参数)(根据结果判断事情本身性质的过程)似然是根据结果来推断参数,概率是根据参数推断结果。
2024-11-04 20:56:07
317
原创 强化学习在实际环境运用中存在的问题以及解决方案
深度强化学习模型的本质是“试错”式的学习方式。所以强化学习模型在训练的过程中需要大量的交互数据才能学习到有效的策略,体现低样本效率问题。并且在现实环境中,强化学习的应用不同于我们学习该方法时的情况有所不同。相比于在虚拟环境中通过在线交互机制实时获得即时奖励(例如解决走迷宫、摆锤等问题)。智能体与现实的交互成本通常较高,数据样本的获取也更加昂贵,极大限制了强化学习的应用!!!总结一下强化学习在实际环境存在的问题(1).样本获取的成本高(2).低样本效率推荐系统存在的问题(1).数据稀疏性。
2024-10-30 10:04:00
1690
1
原创 机器学习笔记(1)
计算机只能存储数值和运算,但是要如何与现实生活的事物关联起来,不能用标量,这样会毫无关联的事物会有联系。所以要用n维向量来表示。学习机器学习需要知道机器学习的框架和原理,如果仅仅把它当作黑盒子,只是学到在这个问题上如何去解决,而不会解决新的问题。损失函数是一个训练数据的损失,代价函数是描述一整个数据集的损失。数据是给模型学习的,算法是模型学习的过程,学习的结果就是模型。模型要好,不仅算法要好,数据也要好。不能单单就学习,要编程要实践。1.关联2.记录3.分享。数据,模型,算法的关系。
2024-01-11 16:37:26
454
1
原创 强化学习入门常见的问题和总结(自己学习的时候的笔记)1
基于 MDP 的贝尔曼方程求动作状态价值函数:qπ(s, a) = Es′∼p(·|s,a)[R(s, a) + γEa′∼π(·|s′)[qπ(s′, a′)]]其实Vπ(s)是Qπ(s, a)的一个期望值Vπ(s)=π(a1|s)*Qπ(s, a1)+π(a2|s)*Qπ(s, a2)+π(a3|s)*Qπ(s, a3)基于 MDP 的贝尔曼方程求状态价值函数:vπ(s)= Ea∼π(·|s),s′∼p(·|s,a)[r + γvπ(s′)]求在策略π的价值函数,即咋在策略π的指导下的所采轨迹的期望。
2023-11-11 14:59:32
116
1
原创 UWB定位方法(希望各位大佬批评指正)
超宽带(Ultra-Wideband, UWB)技术通常被用于作点对点的距离测量,凭借其低功耗、高精度等优点,在高精度定位与识别领域应用广泛,常见于嵌入式设备与智能手机中。采用 UWB 传感器作为移动机器人定位将不受限于机器人体积,在小型移动机器人以及无人机中均适用,并且 UWB 的传输速率高、安全性好。uwb的组成部分包括基站,标签,控制台。
2023-09-07 18:14:56
1213
原创 python入门黑马程序员总结归纳
计算机只认识0和1的二进制编程语言用于人类和计算机进行交流的一种语言,通过编写编程语言的代码,去指挥计算机工作。它无法直接和计算机沟通,需要翻译工具(解释器或编译器)将代码翻译成二进制,从而实现和计算机的畅顺沟通自然语言比编程与语言复杂(中文是自然语言)中文表达一个意思可以有很多种方法,但是编程语言要表达一个意思就一种。所以编程语言比较死板。
2023-08-04 11:39:20
169
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人