朔漠君-优快云博客

原创【RL】policy-gradient

在强化学习中，智能体的目标是学习一个策略，这个策略高速它在特定状态下应该采取什么行动，从而最大化长期积累奖励。就是基于策略方法中的核心算法。πa∣s;θθθ即：如果某个动作带来了好的结果，我们就提高在相应状态下选择这个动作的概率；如果结果不好，我们就降低这个概率。

2025-11-11 11:36:12 887

原创【RL】Efficiently Solving the Practical Vehicle Routing Problem: ANovel Joint Learning Approach实践

使用图数据G(V,E) V是节点，E是边eijeijPeijVRPℓs−eij∑PeijVRP∗logPeijVRP1−PeijVRP∗log1−PeijVRP)]ℓsθeθc−Sπ∑crossEntropyPEVRPPEVRP∗ℓθα×ℓsθβ×ℓr。

2025-11-10 11:03:28 551

而生成模型的难题就是怎么去判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式。是重新采样过的，不是encoder直接的计算结果，噪声强度(方差)是通过一个神经网络计算出来的，所以为了将模型重构的更好，需要让方差为0，所以VAE让所有。，但存在一个比例选取的问题，论文中抽取的是各分量正态分布和标准正态分布的KL散度，这个模型能够将原本的概率分布映射到训练集的概率分布。右输入图，左是基于右的生成图，可以看到生成图相当的模糊。的最小值，即对X的重构过程，会受到噪声影响，因为。

2025-11-10 08:54:50 790

原创【RL】学习路径指导-VRP求解方向

自用学习路径

2025-11-06 17:44:23 992

原创【RL】Q-learning算法简单讲解

Q-learning是一种无模型的强化学习方法，通过试错学习最优策略。其核心是贝尔曼方程，用Q表记录状态-动作价值，通过时序差分更新：Q(s,a) = Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。例子展示了一个两状态两动作系统的Q值迭代过程，通过即时奖励和折扣因子逐步优化策略。这种方法使智能体能在未知环境中通过探索积累经验，最终形成最优行动策略。

2025-11-05 18:55:23 918

转载【RL】强化学习基础原理

讨论的问题是一个。通过感知所处环境的，这样在交互中学习的方式被称为强化学习。智能体基于当前时刻从环境获取的状态，来决定采取什么动作。环境基于智能体的动作发生状态的改变，并给智能体一个奖励【可以是负的】，最终是为了获取所有奖励和，即收益的最大。

2025-11-05 14:16:11 24

原创【RL学习】RL参考文献-vrp方向

本文系统梳理了强化学习在CVRP问题中的应用研究进展。基础性工作包括Vinyals等人(2015)提出的指针网络和Bello等人(2016)首次将RL应用于组合优化；创新性突破来自Kool等人(2018)基于Transformer的模型；近期研究扩展到GNN方法、训练改进和大规模问题。重要文献涵盖算法创新、基准评估和综述论文，并推荐了开源工具和数据资源。建议从注意力机制应用开始，逐步深入理解RL原理，最后通过实践掌握领域知识。

2025-11-04 10:37:11 499

原创【图卷积网络】GCN基础原理&简单python实现

神经网络两个大的分类一个是CNN 可以提取图片中的有效信息，一个是RNN可以提取文本中的有效信息，显然生活中也不仅是图片数据和文本数据，还有大量存在拓扑结构的数据。图神经网络主要特点就是在于其输入数据是图结构数据，能有效提取拓扑结构中的有效信息，实现节点分类，边预测等。

2024-07-05 10:57:44 1417

原创文生视频相关资源汇总

本次学习及其硬核，从sora的技术报告研读，到大咖交流，然后对sora可能实现路径的猜想交流，和开源资料分享。整体脉络非常清晰，本人只是AI技术的爱好者，主职算法不涉及AIGC的内容，可以说是纯小白，但这段时间的学习，让我基本摸清了文生视频的发展路径，了解到了sora为什么能横空出世，只是在这条路径中自己有太多不了解的地方，需要花时间去昂实相关基础。后续会一点一点补齐相关知识，用一些项目练习，相关文档和代码都会秉承Datawhale的开源理念，分享在优快云和Github上。

2024-03-12 15:19:11 727

原创扩散模型基础学习

在变分自编码器(VAE)的一年后，生成对抗网络(GAN)出现，其特征是基于两个神经网络的协作来生成：一个生成器和一个鉴别器，涉及对抗训练过程。在文生图任务中，在输入文本信息的同时，还需random函数生成一个高斯噪声矩阵转为latent featrue的替代输入到SD模型的“图像优化块”中。以文生图任务进行讲解，即将一段文本输入到SD模型中，经过一定的迭代次数，SD模型输出一张符合输入文本描述的图片。在GAN发表六年后，去噪扩散概率模型(DDPM)出现，其结合了两模型的优势，擅长于创造多样化和逼真的图像。

2024-03-09 10:48:24 1133

原创 python GPU加速以numba为例

本文主要在于记录针对于cuda的基础知识学习，在通过numba的实际例子了解如何在python中进行GPU运算

2024-03-06 17:29:53 1889

原创 C#学习 part2 C#基础-1

C#学习的第二弹，主要在于学习基础的C#知识，变量及定义方法作用域常量还有关键的运算符

2024-03-06 10:04:47 754

原创文生视频基础1：sora技术报告学习

当前比较主要是对于两次直播内容的一些总结和个人想法，后续还需要分步去完成相关的知识积累

2024-02-29 14:46:04 1121

原创 C#学习 part1 初窥C#

C#学习笔记1 主要学习C#的环境与搭建开发环境等另简要介绍C#的基本语法

2024-02-26 10:11:43 1220

原创 whale-quant 学习 part7：量化回测

量化回测是金融领域中一种用于评估和验证交易策略的方法。它通过历史市场数据模拟交易策略的表现，为投资者提供了一种客观、系统化的手段，以便更好地理解策略的优势和劣势。

2024-02-03 09:55:32 1714

原创 whale-quant 学习 part6：量化择仓策略

本章节主要学习了量化投资的调仓策略，重点在于怎么去构建自己的投资组合，在适合自己的投资风险的证券里进行投资，并利用优化方法来辅助自己对自己挑选的证券，按什么比例进行持有。

2024-02-01 11:15:03 1058

转载 whale-quant 学习 part5：量化择时策略

本此学习主要了解如何通过技术面来判断买入和卖出的时间，但整体学完后，当前基础的技术面分析，多是一种滞后的分析，短期的股票买入和卖出时间比较难以精准的判断，这也是亏损和获利的关键点，所以股票中技术面的分析有价值，但并不能仅靠技术面分析。

2024-01-29 10:41:19 558

原创 whale-quant 学习 part4：量化选股策略

这一节的内容需要重复学习，主要是学习常见的一些选股模型，如何去选择自己的投资组合，以达到怎样的预期收益。股票投资：怎么选，什么时候买和卖、怎么调仓，这节教导了量化投资选股的策略和之前学过的长期投资的选股策略有差别，但有些地方也有重合。

2024-01-26 11:28:35 907

原创 whale-quant 学习 part3：股票数据获取

此章主要介绍在分析股票中，我们可以基于哪些数据去分析，已经通过哪些指标来进行分析，可以让我们较完善的了解一只股票的投资潜力，并介绍了两种常见获取股票数据的方法。

2024-01-23 16:19:05 2613

原创 whale-quant 学习 part2：金融市场的基本概念

主要了解金融市场的基本的概念，包括如何从宏观经济学来分析当前经济体环境对投资的影响，货币在金融中起到的作用及基本的投资学和数据统计知识点。

2024-01-20 11:05:26 1487

原创 whale-quant 学习 part1：投资与量化投资

本文基于Datawhale开源社区的whale-quant学习，了解量化投资和投资两种的具体差异，以及量化投资的实现路径，以此为基础逐步完善对于量化投资的知识储备，为具体实践筑基。

2024-01-16 10:43:20 1147

原创数据分析-强相关性数据，联合直观展示方法

一种能够很好展现具有强相关性数据的方法

2023-02-11 14:11:06 415

原创【pytorch笔记】05--可视化

pytorch可视化方式：网格结构可视化、CNN的卷积核与特征图显示、TensorBoard可视化训练过程

2022-09-23 16:02:03 668

原创 [pytorch笔记]04 --进阶训练技巧

pytorch进阶使用技巧包含自定义损失函数、动态调整学习率、对预训练模型的微调方法、数据增强、半精度训练，快速调参方法(主要是超参数)

2022-09-21 20:22:08 716

原创 [pytorchb笔记]03 --模型

pytorch学习第三弹，主要是关于模型使用相关，分为三块(模型定义方式、如何将层模块化，模型的修改、保存于存储)，复杂点在于最后一模块的多卡和单卡的匹配问题

2022-09-17 16:25:57 379

原创 [pytorch笔记]02-主要组成模块&基础实战

pytorch学习第二弹，主要涉及数据读取及数据格式调整，定义模型后执行训练过程，优化器及损失函数的基础

2022-09-15 11:03:29 454

原创【pytorch学习笔记】01-安装与基础使用

pytorch学习的相关笔记

2022-09-13 15:32:34 412

原创数字信号处理--几种常见的数字滤波器实现原理

参考：数字信号处理公式变程序(四)—巴特沃斯滤波器(上)滤波器现代滤波器理论研究的主要内容是从含有噪声的数据记录中估计出信号的某些特征或者信号本身，估计出的信号的信噪比将比原信号的高，将信号和噪声都视为随机信号，利用其统计特征导出一套最佳的估计算法。设计的步骤：给出所需的滤波器的技术指标；设计一个H(z)H_(z)H(z)使其逼近所需的技术指标；实现所设计的H(z)H_(z)H(z)，其中步骤2是本章和下一章所讨论的主要内容。按功能分类按相位响应分为线性相位和非线性相位；按特殊要求

2022-04-29 15:10:47 10963

原创 django-webscoket连接

什么是webscoketWebSocket是一种在单个TCP连接上进行全双工通信的协议WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就直接可以创建持久性的连接，并进行双向数据传输现在，很多网站为了实现推送技术，所用的技术都是轮询。轮询是在特定的的时间间隔（如每1秒），由浏览器对服务器发出HTTP请求，然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点，即浏

2022-04-29 15:07:01 851 1

原创 python小记-循环中使用list.append()数据覆盖问题

python 列表使用问题

2022-04-11 10:31:02 1095

原创 g++ 编译问题记录

g++基础G++手册#预编译g++ -E main.c -o main.i#编译g++ -S main.i#汇编g++ -c main.S#链接g++ mian.o -o main编译的步骤说明预处理：处理#号的定义命令或语句，生成*.i文件编译：语法分析、词法分析和语义分析等，生成*.s文件进行汇编：将对应的汇编指令翻译为机器指令，生成可重定位的二进制目标文件dll链接方式//隐式链接由编译器完成对DLL的加载盒程序结束时对DLL的卸载//优缺点简单实用，但缺乏灵

2022-03-24 11:24:01 585

原创 matlab-AR模型的使用

AR模型概念自回归模型，统计上处理时间序列的方法，使用同一变量的之前的数据，来预期本期的表现（前提存在线性关系）公式定义Xt=c+∑i=1pφiXt−i+εtX_{t}=c+\sum_{i=1}^{p}\varphi_{i}X_{t-i}+\varepsilon_{t} Xt=c+i=1∑pφiXt−i+εt其中c是常数项；εt\varepsilon_{t}εt被假设为平均数等于0，标准差等于σ\sigmaσ的随机误差值；σ\sigmaσ被假设为对于任何的t都不变matlab使用方法

2022-01-26 10:17:37 8156 1

原创 PYQT5适用解惑手册

打包生成exe文件出现问题问题一调用多进程函数时，弹出多一个相同界面，怎么解决？在进程函数后面加 multiprocessing.freeze_support()问题二调用自定义的dll文件出现路径问题将dll文件直接和exe文件同目录，在将py文件中的调用路径直接设置为 xxx.dll...

2021-10-20 09:35:27 321

原创可视化-词云图

参考:https://blog.youkuaiyun.com/kun1280437633/article/details/894742841、前期步骤：获得一份待分析的文本数据，使用jieba库将这些段落划分成词；分词后，根据分词结果生成词云，使用wordcloud；使用matplotlib进行展现；#导入对应的库import jiebaimport matplotlib.pyplot as pltfrom PIL import Imagefrom wordcloud import WordClo

2021-07-07 14:57:36 353

原创快速学习法记录

志恒识才学

2021-07-01 16:04:05 142

原创 python-进程、线程、协程

异步I/O参考文献1参考文献2参考文献3python异步协程python-进程/线程线程教学python开启进程的两种方式进程、线程、协程**进程：**正在进行的一个过程或者说一个任务，执行任务的是CPU，一个程序在一个数据集上的一次动态执行过程。程序是代码，进程是计算核心，一个程序可以开启多个进程。进程结构：程序-数据集-进程控制块(系统感知进程存在的唯一标识，用它控制和管理进程)**线程：**进程的下级单位，操作系统中能够进行运算调度的最小单位如：洗衣房有n个洗衣机，安排m

2021-04-22 13:55:42 214

原创 json的若干问题记录

json(Javascript Object Notation)基础介绍一种轻量级的数据交换格式，易于人阅读和编写。语法规则数据为键值对数据由,隔开大括号保存对象方括号保存数组python函数描述json.dumps将python对象编码成JSON字符串json.loads将以编码的JSON字符串去掉s则是文件操作类型对照表JSONPythonobjectdictarrayliststringunicode

2021-03-12 14:53:35 191

原创 ctypes的应用笔记

ctypes作用：c/c++与python混合编程的中间库官方文档：https://docs.python.org/zh-cn/3/library/ctypes.html#数据类型参照表：c-typecpythonc_bool_Boolboolc_charchar1-character bytes objectc_wcharwchar_t1-character stringc_bytecharintc_ubyteunsigned cha

2021-03-08 14:04:26 233 1

原创 FastAPI的应用

什么是FastAPI高性能的python的web框架使用ASGI为引擎pip install fastapipip install uvicornhttp使用1.1协议FastAPI体量很小，需要自己安装一些扩展插件丰富功能如：jinja2，websocket等例子1-与前端使用http协议进行交互main.pyfrom fastapi import FastAPI#主类from starlette.responses import HTMLResponse#starlette插件库

2021-03-02 10:09:11 469

原创 jquery中的定时器-jquery.timers-1.1.2.js

jquerytimers-提供3个函式：everyTime(时间间隔,[计算器名称],函式名称,[次数限制],[等待函式程序完成])//每1s执行函数test()//1s=10$('body').everyTime('1s','A',test,5);//计时器名称为A最多执行5次//每1s执行一次，执行无数次(默认为0)，若抵达时间，函数还未执行完毕，则等待。$('body').everyTime(10,'B',test,0,true);oneTime(时间间隔,[计时器名称],呼叫的函式

2021-02-23 09:12:43 3159

AIGC+VAE+图像生成

使用PyTorch基于CelebA数据集实现AIGC变分自编码器（VAE）是一项有趣的任务。在这个项目中，我们致力于设计一个高效的自编码器结构，以学习并生成具有高质量特征的人脸图像。通过结合AIGC的创新性和VAE的变分推断，我们能够在潜在空间中捕获复杂的面部特征。使用CelebA数据集，其中包含大量名人的面部图像，我们能够训练模型以生成逼真的、多样化的人脸图像。我们的实现将充分利用PyTorch的灵活性和GPU加速，以提高训练效率，并通过调整模型参数和超参数来优化生成结果。这个项目旨在展示AIGC VAE在人脸图像生成领域的应用潜力，并提供一个可用于研究和实际应用的基础框架.

2024-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

AIGC+VAE+图像生成

时间同步.bat

pytorch-FashionMNIST实战项目

特征选择 过滤法 relief算法

LSTM（长短期记忆神经网络）的小项目

AddressBook.rar

基于scrapy爬取豆瓣top250

爬虫-爬取豆瓣2019电影排行榜的信息，不是top250那个。

GreedyMethod.py

中国各城市天气查询程序

alien_invasion.rar

原地哈希算法的几个应用

生成随机黑白动态验证码，并显示FPS

CREEPER.zip

空空如也

特征选择过滤法 relief算法