- 博客(40)
- 收藏
- 关注
原创 一、小雅自带tutorial文件教程
关于ElegantRL库的使用如果出现以下报错,是因为,问题出在安装 box2d-py 时缺少 swig 工具。swig 是一个用于将 C/C++ 代码与 Python 集成的工具,而 box2d-py 依赖于它来编译其 C++ 扩展再重新运行pip install elegantrl在虚拟环境中安装 ipykernel,这是一个用于将虚拟环境添加到 Jupyter Kernel 的工具。–name=ElegantRL:指定 Kernel 的名称(内部标识)。–dis
2025-03-18 15:21:09
780
原创 时序差分算法
时序差分算法,无模型的强化学习中的两大经典算法:Sarsa 和 Q-learning,它们都是基于时序差分(temporal difference,TD)的强化学习算法
2024-12-19 21:13:36
923
原创 【博弈强化学习】——UAV-BS 的联合功率分配和 3D 部署:基于博弈论的深度强化学习方法
博弈强化学习,功率分配问题首先被表述为具有定价机制的非合作博弈,以模仿无人机基站服务的用户之间的交互。 然后,基于深度强化学习(DRL)和博弈论的结合,将无人机基站的功率分配和3D部署转化为马尔可夫决策问题。 最后,提出了一种新颖的基于价格的近端策略优化(3PO)算法来探索最大化系统吞吐量的最优策略。
2024-09-28 11:23:41
269
原创 【博弈强化学习】——A Survey of Game Theory in Unmanned Aerial Vehicles Communications 无人机通信博弈论综述
A Survey of Game Theory in Unmanned Aerial Vehicles Communications无人机通信博弈论综述
2024-09-24 20:31:19
196
原创 机器学习——神经网络
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络。神经网络中最基本的成分是神经元模型。以下图常见的“M-P神经元模型”为例,在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。
2024-05-01 10:17:16
1018
原创 机器学习——模型评估与选择
学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”,显然,我们希望得到泛化误差小的学习器。
2024-03-27 20:11:22
2505
原创 表格制作,“无代价”打印
但是有时候,单元格的内容不多,列宽完全可以占下,但是需要在此单元格强制另起一行继续输入,这时,不用狠敲空格,只需要同时按下Alt键和Enter键就可以实现强制换行。不可避免的是,有时候表格的模板我们不能动,行高或列宽不方便调整,但是一个单元格里面的内容很多,显示不完全,这时可以用到自动换行功能。要批量调整多列的宽度,可以选中多列后,双击列标交界处,列宽就会自动适应单元格的内容,将一些过宽的列压缩,腾出更多空间来。同理,在【分页预览】模式下,选择打印区域后,右键单击,选择【设置打印区域】
2024-03-22 21:33:30
2549
1
原创 机器学习初步——绪论
机器学习是利用经验来改善系统自身的性能。这里的“经验“指的就是数据。机器学习所研究的主要内容,是关于在计算机从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。基本术语西瓜书的数据集样例数据集在此样例中,数据集中有4条数据训练数据用于训练模型的数据是训练数据,标签结果已知测试数据。
2024-03-19 16:07:20
1023
1
【博弈强化学习】-UAV-BS 的联合功率分配和 3D 部署:基于博弈论的深度强化学习方法
2024-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人