唐小旭-优快云博客

原创 20250329-强化学习笔记-DQN

第 7 章 DQN 算法''' 经验回放池 '''self.buffer = collections.deque(maxlen=capacity) # 队列,先进先出def add(self, state, action, reward, next_state, done): # 将数据加入bufferdef sample(self, batch_size): # 从buffer中采样数据,数量为batch_sizedef size(self): # 目前buffer中数据的数量初始化模块 (

2025-03-31 11:01:24 540

原创 20250320-论文学习笔记-POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

NeurIPS 2020 的论文，POMO: Policy Optimization with Multiple Optima for Reinforcement Learning。

2025-03-21 16:43:43 591

原创 20250306-笔记-精读class CVRPEnv:step(self, selected)

函数是强化学习代码实现中的核心。熟悉每一个参数的shape。熟悉每个参数之间的关系（剪切，扩展，等）。

2025-03-07 16:13:18 627

原创 20250304笔记-阅读论文

浏览器扩展-AI Code Finder & Alerts for Papers: CatalyzeX功能显示论文的代码。

2025-03-04 22:35:57 494

原创 20250303-代码笔记-class CVRPTester

学习代码CVRPTester.py，对代码的分析如下。

2025-03-03 17:21:26 438

原创 20250303-代码笔记-train_n100

DEBUG_MODE: 控制是否启用调试模式。False表示不开启调试模式，True启用调试模式。USE_CUDA: 是否使用 GPU 加速计算，默认值为True，即在非调试模式下使用 CUDA（GPU）。: 指定要使用的 GPU 编号。1表示使用第二个 GPU，0表示使用第一个 GPU。-1表示不使用 GPU。

2025-03-03 15:53:48 563

原创 20250301-代码笔记-test_n100

讲解脚本中的代码。

2025-03-03 09:28:10 639

原创 20250301_代码笔记_函数class CVRPEnv: def step(self, selected)

细读函数selected为step()函数的输入参数。

2025-03-01 15:18:42 627

原创服务器运行代码-screen

screen使用screen可以极大地提高你在服务器上运行长时间任务的效率。它能够持久化会话、管理多个任务，并且允许你在任务运行时断开并重新连接，避免了 SSH 连接中断的风险。掌握screen的基本操作，你就能够更高效地管理服务器上的任务。

2025-02-28 21:39:26 387

原创 20250225-代码笔记03-class CVRPModel AND other class

学习代码:init 是 CVRPModel 类的构造函数，负责初始化模型的各个组件。主要任务包括：执行流程图链接二、class CVRPModel(nn.Module):pre_forward(self, reset_state)函数功能pre_forward 是 CVRPModel 类的一个前向传播前的准备函数。它的主要任务是根据给定的初始状态（reset_state）准备和编码数据，为模型的后续前向传播（forward）过程做准备。具体来说，函数的作用是：执行流程图链接

2025-02-28 20:24:46 893

原创 20250226-代码笔记04-class CVRP_Encoder AND class EncoderLayer

以上是的类。

2025-02-26 21:10:48 811

原创 20250226-代码笔记05-class CVRP_Decoder

是里的类。

2025-02-26 21:00:07 1064

原创 20250224-代码笔记02-class CVRPTrainer

代码/home/tang/RL_exa/NCO_code-main/single_objective/LCH-Regret/Regret-POMO/CVRP/POMO/CVRPTrainer.py学习。该代码功能是训练模型。

2025-02-24 20:15:25 536

原创 20250220-代码笔记01-class CVRPEnv

对CVRPEnv.py中的类（class CVRPEnv）代码的学习。

2025-02-22 14:29:55 475

原创 20250217-学习方法迭代

在通过大量的实践验证下，发现我现有的学习方法效率不高。即学习方法急需进行迭代改进。这周暂且应用这两个方法，记忆宫殿是否是真的？如何将其应用到自己的学习方法中？

2025-02-17 11:01:41 260

原创 20250110_ PyTorch中的张量操作

torch.cat 函数将两个张量拼接起来，具体地是在第三个维度（dim=2）上进行拼接。注：dim取值范围是0~2# shape2# shape若要拼接node_xy 与node_demand 需要将node_demand 进行维度拓展即。

2025-01-10 22:24:13 1105

原创 2025-01-10参数数据结构知识点分析

在程序中常常会看到三维数据，但此三维和常见的三维坐标是不同的表达形式。对于每一个张量形状，从右至左在数据矩阵上可以象形的看作从内至外。

2025-01-10 17:08:53 320

原创 2024/12/26——提问：状态转移概率与决策，贝尔曼方程递归优化策略

问题1：贝尔曼方程递归优化策略，是用来求解最优动作奖励的么？回答：是的，贝尔曼方程的目标是通过递归计算值函数VsV(s)Vs或动作值函数QsaQ(s, a)Qsa，最终找到每个状态下的最优动作以及对应的长期累积奖励。问题2：贝尔曼方程递归优化策略，是迭代出当前时间步的最优动作么？通过当前状态，多次比较不同的动作而比较出一个整体奖励最优的动作么？回答：是的，贝尔曼方程通过对当前状态下所有动作的价值QsaQ(s, a)Qsa进行比较，选择整体奖励最优的动作。

2024-12-26 16:40:11 896

原创 python3.6搭建pytorch环境

是支持 Python 3.6 的最后一个版本。CUDAToolkit 11.1 可以与 PyTorch 1.8.1 搭配使用（前提是你的 GPU 驱动程序支持 CUDA 11.1 或更高版本）。

2024-12-23 22:40:46 691

原创服务器建立-错误:pyenv环境建立后python版本不对

从你的描述来看，现在 pyenv 能够正确工作，python --version 已经显示为 Python 3.6.9，说明之前的问题已经解决。

2024-12-23 13:11:41 863

原创再服务器上建立新的编译环境

基于pyenv建立环境配置pyenv_博客阿里资源库提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-12-23 10:25:47 473

原创笔记-代码分析-CVRP&MDP

二、代码分析——class CVRPEnv(gym.Env)1. def init(self, num_nodes=10, vehicle_capacity=15):

2024-11-01 13:46:33 373

原创服务器新建用户

环境：为用户设置密码设置密码后，可以尝试使用 su 切换到 tang 用户，确保该用户可以正常使用：二、问题问题一、没有那个文件或目录**办法：**动创建主目录可以使用命令手动创建主目录，并确保该目录的所有权属于 tang(用户名)用户：

2024-10-29 15:40:21 972

原创笔记-配置PyTorch（CUDA 12.2）

如果还没有创建环境，可以先创建：2. 安装 PyTorch（CUDA 12.2）3. 安装 torch_geometric 及依赖项使用官方提供的临时源命令，结合 Aliyun 镜像：

2024-10-28 22:34:08 2633

原创 Dyna-Q 算法_笔记_20241023

Dyna-Q 算法。

2024-10-23 21:11:44 915

原创 VRP_用MDP建模_用SB3改进-未完

VRP_用MDP建模_20241015图结构（Graph Structure）_笔记该代码展示了如何使用DQN 算法解决VRP 问题自定义 Gymnasium 环境模拟了 VRP。DQN 算法通过经验回放和目标网络更新来优化路径选择。训练完成后，模型可以保存并用于测试。使用 DQN 解决 VRP 是组合优化问题在强化学习中的典型应用。通过合理调整超参数（如学习率、探索率），该方法可用于更大规模的调度和物流问题。

2024-10-19 12:04:47 824

原创图结构（Graph Structure）_笔记

图结构的详细描述图（Graph）是数学和计算机科学中用于描述对象集合及其相互关系的抽象模型。它由一组顶点（Vertices）和连接这些顶点的边（Edges）组成。图结构广泛应用于网络分析、路径规划、社交网络、数据挖掘等领域。一、图的基本概念顶点（Vertex）：表示对象或实体，通常用集合VVV表示。边（Edge）：表示顶点之间的连接关系，通常用集合EEE表示。无向边：没有方向性，连接的两个顶点关系对等。有向边（弧）：具有方向性，表示从一个顶点指向另一个顶点的关系。二、图的分类按边的方向性。

2024-10-16 15:45:39 2355

原创第 4 章动态规划算法_未完待续

第 4 章动态规划算法提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-10-15 20:22:55 801

原创 VRP_用MDP建模_20241015

由图可知，显然实验效果十分差。需要进行改进。

2024-10-15 15:22:59 1010

原创组合优化_初识

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。启发式搜索的基本原理是利用启发式函数引导搜索过程，从而更高效地找到解。在很多优化问题中，启发式搜索能避免盲目遍历解空间，尤其在解空间巨大或搜索成本高昂的情况下。启发式搜索的成功很大程度上取决于启发式函数的设计。一个好的启发式函数能够大大缩短搜索时间，而不好的启发式函数则可能会导致算法效率低下甚至无法找到解。

2024-10-12 17:43:31 1022

原创 Cocos_鼠标滚轮放缩地图

学习笔记，请多多斧正。提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-10-06 20:51:27 2211

原创 RL_足球教练

论文笔记——An analysis of Reinforcement Learning applied to Coach task in IEEE Very Small Size Soccer定义：在强化学习中，代理是一个可以采取行动并从环境中接收反馈的实体。它通过与环境的交互来学习如何实现目标。approach”在强化学习和其他机器学习领域中是一种常见的方法。它指的是一个系统或模型能够直接从输入到输出进行处理，而不需要手动设计的中间步骤或特征工程。

2024-10-06 19:39:45 912

原创 Case：cocos地图和网格初始化

其由10000个单位小方块组成。@ccclass使用 @ccclass 装饰器标记类，使其成为 Cocos Creator 中的一个组件。GridArea 类继承自 Component，因此它具有所有组件的基本特性。@ccclassGridArea 类继承自 Component，成为一个 Cocos Creator 中的组件。使用 @ccclass 装饰器标记这个类，使其能被 Cocos Creator 识别和使用。@property// 网格行数@property// 网格列数。

2024-09-30 11:36:50 746

原创 cocos项目建立

非盈利博客，只是学习笔记，如有雷同，十分抱歉。

2024-09-29 13:13:11 330

原创 Cocos_随机生成方块

非盈利博客，只是学习笔记，如有雷同，十分抱歉。装饰器是一种特殊的语法，用于修改或增强类、方法、属性等的行为。在 TypeScript 和 JavaScript 中，装饰器可以用来提供额外的信息或功能。这种机制在 Cocos Creator 中被广泛使用，以允许开发者创建自定义组件和脚本。@ccclass提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-09-29 12:58:14 923

原创用一根网线实现两个电脑的交互

配置两个电脑的IP地址后续还会有进阶——电脑桌面的控制。

2024-09-20 16:28:05 413

原创随笔-23年数学建模笔记

时间有限，学到哪写到哪。DataFrame 是一个二维标签数据结构，类似于电子表格或 SQL 表。它包含行和列，其中每一列可以包含不同类型的数据（如整数、浮点数、字符串、布尔值等）。特点灵活性：支持多种数据类型（整型、浮点型、字符串等）。可变性：可以动态添加、删除或修改行和列。索引：每一行和每一列都可以有自定义的标签索引，便于数据选择和操作。强大的功能：内置许多数据处理、清洗、过滤、分组和聚合等功能。

2024-09-14 21:01:27 1088

原创绘制LSTM的loss曲线

Get item# 向量化# y的权重是在门值的计算上(4个门都有y)# 全连接层(做预测)# 权重初始化# 切分输入与输出关系# 重新对齐tensor维度else:# 序列长度的计算# LSTM门值的计算(y加进去算)# 隐藏状态的计算# 全连接层做特征预测# Set seedx_3d = []y_3d = []# loss = criterion(outputs, labels.long()) # 损失样例。

2024-08-26 20:22:53 486

原创 Python读csv文件

# 真实值与预测值曲线y_1 = []y_2 = []x = []y_1= np.loadtxt(r"C:\Users\tang3\Downloads\作业D2附件1\附件1\SLSTM_DC_dim_h=200.csv", delimiter=",", usecols=0)y_2 =np.loadtxt(r"C:\Users\tang3\Downloads\作业D2附件1\附件1\SLSTM_DC_dim_h=200.csv", delimiter=",", usecols=1)

2024-08-26 20:00:49 240

原创飞桨平台的搭建(在Pycharm配置paddlepaddle)

第一步，打开pycharm,点击下方的Terminal第二步，输入https://pypi.douban.com/simple matplotlib(加入一些国内镜像下载资源网)第三步，选择下载合适的paddlepaddle版本。选择paddlepaddle不要选择太高级的版本。（建议2.3）Python的版本不要太高。（建议3.6）使用LeNet在MNIST数据集实现图像分类。

2024-08-26 19:22:23 780

Tang01.rar

//下一张 void CTang01Dlg::OnBnClickedButton3() { // TODO: 在此添加控件通知处理程序代码 i++; if (i > 24) { i = 1; } CString path; path.Format(TEXT("../image/%d.bmp"), i); m_imageCtrl.SetBitmap(HBMP(path, m_w, m_h)); } //定时器处理函数 void CTang01Dlg::OnTimer(UINT_PTR nIDEvent) { // TODO: 在此添加消息处理程序代码和/或调用默认值 //按下一张的功能 OnBnClickedButton3(); CDialogEx::OnTimer(nIDEvent); }

2019-08-19

MFC8848.rar

void CMFC8848Dlg::DoDataExchange(CDataExchange* pDX) { CDialogEx::DoDataExchange(pDX); DDX_Control(pDX, IDC_COMBO_COM, m_ComboSeriou);//Combo Box端口号(控件) DDX_CBString(pDX, IDC_COMBO_COM, m_SeriouStr);//Combo Box端口号(值) DDX_Control(pDX, IDC_COMBO2, m_ComboBaud);//Combo Box波特率(控件) DDX_CBString(pDX, IDC_COMBO2, m_BaudStr);//Combo Box波特率(值) DDX_Control(pDX, IDC_COMBO3, m_ComboJiaoyan);//Combo Box校验位(控件) DDX_CBString(pDX, IDC_COMBO3, m_JiaoyanStr);//Combo Box校验位(值) DDX_Control(pDX, IDC_COMBO4, m_ComboData);//Combo Box数据位(控件) DDX_CBString(pDX, IDC_COMBO4, m_DataStr);//Combo Box数据位(值) DDX_Control(pDX, IDC_COMBO5, m_ComboStop);//Combo Box停止位(控件) DDX_CBString(pDX, IDC_COMBO5, m_StopStr);//Combo Box停止位(值) DDX_Control(pDX, IDC_CHECK_WRITETOFILE, m_writetofile);//保存到文件（默认路径） DDX_Control(pDX, IDC_STATIC_FILENAME, m_filename);//保存路径 DDX_Text(pDX, IDC_STATIC_FILENAME, m_savefilename);//保存路径 DDX_Control(pDX, IDC_CHECK_HEXDISPLAY, m_ctrlHexDisplay);//十六进制显示 DDX_Text(pDX, IDC_EDIT_RXDATA, m_strRXData);//输出框// m_strRXData数据显示区字符串 DDX_Control(pDX, IDC_EDIT_RXDATA, m_EditRXData);//输出框 DDX_Control(pDX, IDC_BUTTON_SEND, m_sendbutten);//发送 DDX_Control(pDX, IDC_BUTTON_TRANSFILE, m_transfile);//选择文件 DDX_Control(pDX, IDC_BUTTON_EMPTYTEXT, m_emptytx);//清空发送区 DDX_Control(pDX, IDC_STATIC_FILEPATH, m_sfilePath);//file path DDX_Control(pDX, IDC_CHECK_HEXSEND, m_cHexSend);//十六进制发送 }

2019-08-19

串口助手.rar

用于串口助手开发的初步了解与学习。 //设置超时 TimeOuts.ReadIntervalTimeout=MAXDWORD; //读间隔超时 TimeOuts.ReadTotalTimeoutMultiplier=0; //读时间系数 TimeOuts.ReadTotalTimeoutConstant=0; //读时间常量 TimeOuts.WriteTotalTimeoutMultiplier=0; //写时间系数 SetCommTimeouts(m_hCom,&TimeOuts;); //设置串口参数 DCB dcb; //DCB结构，定义了串口通信设备的控制设置 if(!GetCommState(m_hCom,&dcb;)) //读取新创建的m_hCom串口句柄的DCB设备控制块结构体，当只需要设置一部分DCB参数时，可以通过此函数读取现有参数，只改变部分参数即可 return FALSE; //如果读取不成功直接结束 //设置基本参数 long baudrate[]={300,600,1200,2400,4800,9600,19200,38400,43000,56000,57600,115200}; int baudindex=m_ComboBaud.GetCurSel(); m_ComboBaud.GetLBText(baudindex,m_BaudStr); dcb.BaudRate=baudrate[baudindex]; //读取并设置波特率参数 int databit[]={8,7,6}; int dataindex=m_ComboData.GetCurSel(); m_ComboData.GetLBText(dataindex,m_DataStr); dcb.ByteSize=databit[dataindex]; //读取并设置数据位参数 int jiaoyanindex=m_ComboJiaoyan.GetCurSel(); m_ComboJiaoyan.GetLBText(jiaoyanindex,m_JiaoyanStr); switch(jiaoyanindex) { case 0: dcb.Parity=NOPARITY; //读取并设置校验位参数 break; case 1: dcb.Parity=ODDPARITY; break; case 2: dcb.Parity=EVENPARITY; break; default:; }

2019-08-19

C语言的初级教程资料以及小程序

C语言的课后作业以及自主研发的小程序，适用初学者入门。

2018-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人