- 博客(50)
- 资源 (4)
- 收藏
- 关注
原创 20250329-强化学习笔记-DQN
第 7 章 DQN 算法''' 经验回放池 '''self.buffer = collections.deque(maxlen=capacity) # 队列,先进先出def add(self, state, action, reward, next_state, done): # 将数据加入bufferdef sample(self, batch_size): # 从buffer中采样数据,数量为batch_sizedef size(self): # 目前buffer中数据的数量初始化模块 (
2025-03-31 11:01:24
540
原创 20250320-论文学习笔记-POMO: Policy Optimization with Multiple Optima for Reinforcement Learning
NeurIPS 2020 的论文,POMO: Policy Optimization with Multiple Optima for Reinforcement Learning。
2025-03-21 16:43:43
591
原创 20250306-笔记-精读class CVRPEnv:step(self, selected)
函数是强化学习代码实现中的核心。熟悉每一个参数的shape。熟悉每个参数之间的关系(剪切,扩展,等)。
2025-03-07 16:13:18
627
原创 20250304笔记-阅读论文
浏览器扩展-AI Code Finder & Alerts for Papers: CatalyzeX功能显示论文的代码。
2025-03-04 22:35:57
494
原创 20250303-代码笔记-train_n100
DEBUG_MODE: 控制是否启用调试模式。False表示不开启调试模式,True启用调试模式。USE_CUDA: 是否使用 GPU 加速计算,默认值为True,即在非调试模式下使用 CUDA(GPU)。: 指定要使用的 GPU 编号。1表示使用第二个 GPU,0表示使用第一个 GPU。-1表示不使用 GPU。
2025-03-03 15:53:48
563
原创 20250301_代码笔记_函数class CVRPEnv: def step(self, selected)
细读函数selected为step()函数的输入参数。
2025-03-01 15:18:42
627
原创 服务器运行代码-screen
screen使用screen可以极大地提高你在服务器上运行长时间任务的效率。它能够持久化会话、管理多个任务,并且允许你在任务运行时断开并重新连接,避免了 SSH 连接中断的风险。掌握screen的基本操作,你就能够更高效地管理服务器上的任务。
2025-02-28 21:39:26
387
原创 20250225-代码笔记03-class CVRPModel AND other class
学习代码:init 是 CVRPModel 类的构造函数,负责初始化模型的各个组件。主要任务包括:执行流程图链接二、class CVRPModel(nn.Module):pre_forward(self, reset_state)函数功能pre_forward 是 CVRPModel 类的一个前向传播前的准备函数。它的主要任务是根据给定的初始状态(reset_state)准备和编码数据,为模型的后续前向传播(forward)过程做准备。具体来说,函数的作用是:执行流程图链接
2025-02-28 20:24:46
893
原创 20250224-代码笔记02-class CVRPTrainer
代码/home/tang/RL_exa/NCO_code-main/single_objective/LCH-Regret/Regret-POMO/CVRP/POMO/CVRPTrainer.py学习。该代码功能是训练模型。
2025-02-24 20:15:25
536
原创 20250217-学习方法迭代
在通过大量的实践验证下,发现我现有的学习方法效率不高。即学习方法急需进行迭代改进。这周暂且应用这两个方法,记忆宫殿是否是真的?如何将其应用到自己的学习方法中?
2025-02-17 11:01:41
260
原创 20250110_ PyTorch中的张量操作
torch.cat 函数将两个张量拼接起来,具体地是在第三个维度(dim=2)上进行拼接。注:dim取值范围是0~2# shape2# shape若要拼接node_xy 与node_demand 需要将node_demand 进行维度拓展即。
2025-01-10 22:24:13
1105
原创 2025-01-10参数数据结构知识点分析
在程序中常常会看到三维数据,但此三维和常见的三维坐标是不同的表达形式。对于每一个张量形状,从右至左在数据矩阵上可以象形的看作从内至外。
2025-01-10 17:08:53
320
原创 2024/12/26——提问:状态转移概率与决策,贝尔曼方程递归优化策略
问题1:贝尔曼方程递归优化策略,是用来求解最优动作奖励的么?回答:是的,贝尔曼方程的目标是通过递归计算值函数VsV(s)Vs或动作值函数QsaQ(s, a)Qsa,最终找到每个状态下的最优动作以及对应的长期累积奖励。问题2:贝尔曼方程递归优化策略,是迭代出当前时间步的最优动作么?通过当前状态,多次比较不同的动作而比较出一个整体奖励最优的动作么?回答:是的,贝尔曼方程通过对当前状态下所有动作的价值QsaQ(s, a)Qsa进行比较,选择整体奖励最优的动作。
2024-12-26 16:40:11
896
原创 python3.6搭建pytorch环境
是支持 Python 3.6 的最后一个版本。CUDAToolkit 11.1 可以与 PyTorch 1.8.1 搭配使用(前提是你的 GPU 驱动程序支持 CUDA 11.1 或更高版本)。
2024-12-23 22:40:46
691
原创 服务器建立-错误:pyenv环境建立后python版本不对
从你的描述来看,现在 pyenv 能够正确工作,python --version 已经显示为 Python 3.6.9,说明之前的问题已经解决。
2024-12-23 13:11:41
863
原创 再服务器上建立新的编译环境
基于pyenv建立环境配置pyenv_博客阿里资源库提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-12-23 10:25:47
473
原创 笔记-代码分析-CVRP&MDP
二、代码分析——class CVRPEnv(gym.Env)1. def init(self, num_nodes=10, vehicle_capacity=15):
2024-11-01 13:46:33
373
原创 服务器新建用户
环境:为用户设置密码设置密码后,可以尝试使用 su 切换到 tang 用户,确保该用户可以正常使用:二、问题问题一、没有那个文件或目录**办法:**动创建主目录 可以使用 命令手动创建主目录,并确保该目录的所有权属于 tang(用户名)用户:
2024-10-29 15:40:21
972
原创 笔记-配置PyTorch(CUDA 12.2)
如果还没有创建环境,可以先创建:2. 安装 PyTorch(CUDA 12.2)3. 安装 torch_geometric 及依赖项使用 官方提供的临时源命令,结合 Aliyun 镜像:
2024-10-28 22:34:08
2633
原创 VRP_用MDP建模_用SB3改进-未完
VRP_用MDP建模_20241015图结构(Graph Structure)_笔记该代码展示了如何使用DQN 算法解决VRP 问题自定义 Gymnasium 环境模拟了 VRP。DQN 算法通过经验回放和目标网络更新来优化路径选择。训练完成后,模型可以保存并用于测试。使用 DQN 解决 VRP 是组合优化问题在强化学习中的典型应用。通过合理调整超参数(如学习率、探索率),该方法可用于更大规模的调度和物流问题。
2024-10-19 12:04:47
824
原创 图结构(Graph Structure)_笔记
图结构的详细描述图(Graph)是数学和计算机科学中用于描述对象集合及其相互关系的抽象模型。它由一组顶点(Vertices)和连接这些顶点的边(Edges)组成。图结构广泛应用于网络分析、路径规划、社交网络、数据挖掘等领域。一、图的基本概念顶点(Vertex):表示对象或实体,通常用集合VVV表示。边(Edge):表示顶点之间的连接关系,通常用集合EEE表示。无向边:没有方向性,连接的两个顶点关系对等。有向边(弧):具有方向性,表示从一个顶点指向另一个顶点的关系。二、图的分类按边的方向性。
2024-10-16 15:45:39
2355
原创 第 4 章 动态规划算法_未完待续
第 4 章 动态规划算法提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-10-15 20:22:55
801
原创 组合优化_初识
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。启发式搜索的基本原理是利用启发式函数引导搜索过程,从而更高效地找到解。在很多优化问题中,启发式搜索能避免盲目遍历解空间,尤其在解空间巨大或搜索成本高昂的情况下。启发式搜索的成功很大程度上取决于启发式函数的设计。一个好的启发式函数能够大大缩短搜索时间,而不好的启发式函数则可能会导致算法效率低下甚至无法找到解。
2024-10-12 17:43:31
1022
原创 Cocos_鼠标滚轮放缩地图
学习笔记,请多多斧正。提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-10-06 20:51:27
2211
原创 RL_足球教练
论文笔记——An analysis of Reinforcement Learning applied to Coach task in IEEE Very Small Size Soccer定义:在强化学习中,代理是一个可以采取行动并从环境中接收反馈的实体。它通过与环境的交互来学习如何实现目标。approach”在强化学习和其他机器学习领域中是一种常见的方法。它指的是一个系统或模型能够直接从输入到输出进行处理,而不需要手动设计的中间步骤或特征工程。
2024-10-06 19:39:45
912
原创 Case:cocos地图和网格初始化
其由10000个单位小方块组成。@ccclass使用 @ccclass 装饰器标记类,使其成为 Cocos Creator 中的一个组件。GridArea 类继承自 Component,因此它具有所有组件的基本特性。@ccclassGridArea 类继承自 Component,成为一个 Cocos Creator 中的组件。使用 @ccclass 装饰器标记这个类,使其能被 Cocos Creator 识别和使用。@property// 网格行数@property// 网格列数。
2024-09-30 11:36:50
746
原创 Cocos_随机生成方块
非盈利博客,只是学习笔记,如有雷同,十分抱歉。装饰器是一种特殊的语法,用于修改或增强类、方法、属性等的行为。在 TypeScript 和 JavaScript 中,装饰器可以用来提供额外的信息或功能。这种机制在 Cocos Creator 中被广泛使用,以允许开发者创建自定义组件和脚本。@ccclass提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-09-29 12:58:14
923
原创 随笔-23年数学建模笔记
时间有限,学到哪写到哪。DataFrame 是一个二维标签数据结构,类似于电子表格或 SQL 表。它包含行和列,其中每一列可以包含不同类型的数据(如整数、浮点数、字符串、布尔值等)。特点灵活性:支持多种数据类型(整型、浮点型、字符串等)。可变性:可以动态添加、删除或修改行和列。索引:每一行和每一列都可以有自定义的标签索引,便于数据选择和操作。强大的功能:内置许多数据处理、清洗、过滤、分组和聚合等功能。
2024-09-14 21:01:27
1088
原创 绘制LSTM的loss曲线
Get item# 向量化# y的权重是在门值的计算上(4个门都有y)# 全连接层(做预测)# 权重初始化# 切分输入与输出关系# 重新对齐tensor维度else:# 序列长度的计算# LSTM门值的计算(y加进去算)# 隐藏状态的计算# 全连接层做特征预测# Set seedx_3d = []y_3d = []# loss = criterion(outputs, labels.long()) # 损失样例。
2024-08-26 20:22:53
486
原创 Python读csv文件
# 真实值与预测值曲线y_1 = []y_2 = []x = []y_1= np.loadtxt(r"C:\Users\tang3\Downloads\作业D2附件1\附件1\SLSTM_DC_dim_h=200.csv", delimiter=",", usecols=0)y_2 =np.loadtxt(r"C:\Users\tang3\Downloads\作业D2附件1\附件1\SLSTM_DC_dim_h=200.csv", delimiter=",", usecols=1)
2024-08-26 20:00:49
240
原创 飞桨平台的搭建(在Pycharm配置paddlepaddle)
第一步,打开pycharm,点击下方的Terminal第二步,输入https://pypi.douban.com/simple matplotlib(加入一些国内镜像下载资源网)第三步,选择下载合适的paddlepaddle版本。选择paddlepaddle不要选择太高级的版本。(建议2.3)Python的版本不要太高。(建议3.6)使用LeNet在MNIST数据集实现图像分类。
2024-08-26 19:22:23
780
Tang01.rar
2019-08-19
MFC8848.rar
2019-08-19
串口助手.rar
2019-08-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人