- 博客(72)
- 资源 (12)
- 收藏
- 关注
原创 【RL】policy-gradient
在强化学习中,智能体的目标是学习一个策略,这个策略高速它在特定状态下应该采取什么行动,从而最大化长期积累奖励。就是基于策略方法中的核心算法。πa∣s;θθθ即:如果某个动作带来了好的结果,我们就提高在相应状态下选择这个动作的概率;如果结果不好,我们就降低这个概率。
2025-11-11 11:36:12
887
原创 【RL】Efficiently Solving the Practical Vehicle Routing Problem: ANovel Joint Learning Approach实践
使用图数据G(V,E) V是节点,E是边eijeijPeijVRPℓs−eij∑PeijVRP∗logPeijVRP1−PeijVRP∗log1−PeijVRP)]ℓsθeθc−Sπ∑crossEntropyPEVRPPEVRP∗ℓθα×ℓsθβ×ℓr。
2025-11-10 11:03:28
551
原创 VAE编码器
而生成模型的难题就是怎么去判断生成分布与真实分布的相似度,因为我们只知道两者的采样结果,不知道它们的分布表达式。是重新采样过的,不是encoder直接的计算结果,噪声强度(方差)是通过一个神经网络计算出来的,所以为了将模型重构的更好,需要让方差为0,所以VAE让所有。,但存在一个比例选取的问题,论文中抽取的是各分量正态分布和标准正态分布的KL散度,这个模型能够将原本的概率分布映射到训练集的概率分布。右输入图,左是基于右的生成图,可以看到生成图相当的模糊。的最小值,即对X的重构过程,会受到噪声影响,因为。
2025-11-10 08:54:50
790
原创 【RL】Q-learning算法简单讲解
Q-learning是一种无模型的强化学习方法,通过试错学习最优策略。其核心是贝尔曼方程,用Q表记录状态-动作价值,通过时序差分更新:Q(s,a) = Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。例子展示了一个两状态两动作系统的Q值迭代过程,通过即时奖励和折扣因子逐步优化策略。这种方法使智能体能在未知环境中通过探索积累经验,最终形成最优行动策略。
2025-11-05 18:55:23
918
转载 【RL】强化学习基础原理
讨论的问题是一个。通过感知所处环境的,这样在交互中学习的方式被称为强化学习。智能体基于当前时刻从环境获取的状态,来决定采取什么动作。环境基于智能体的动作发生状态的改变,并给智能体一个奖励【可以是负的】,最终是为了获取所有奖励和,即收益的最大。
2025-11-05 14:16:11
24
原创 【RL学习】RL参考文献-vrp方向
本文系统梳理了强化学习在CVRP问题中的应用研究进展。基础性工作包括Vinyals等人(2015)提出的指针网络和Bello等人(2016)首次将RL应用于组合优化;创新性突破来自Kool等人(2018)基于Transformer的模型;近期研究扩展到GNN方法、训练改进和大规模问题。重要文献涵盖算法创新、基准评估和综述论文,并推荐了开源工具和数据资源。建议从注意力机制应用开始,逐步深入理解RL原理,最后通过实践掌握领域知识。
2025-11-04 10:37:11
499
原创 【图卷积网络】GCN基础原理&简单python实现
神经网络两个大的分类一个是CNN 可以提取图片中的有效信息,一个是RNN可以提取文本中的有效信息,显然生活中也不仅是图片数据和文本数据,还有大量存在拓扑结构的数据。图神经网络主要特点就是在于其输入数据是图结构数据,能有效提取拓扑结构中的有效信息,实现节点分类,边预测等。
2024-07-05 10:57:44
1417
原创 文生视频相关资源汇总
本次学习及其硬核,从sora的技术报告研读,到大咖交流,然后对sora可能实现路径的猜想交流,和开源资料分享。整体脉络非常清晰,本人只是AI技术的爱好者,主职算法不涉及AIGC的内容,可以说是纯小白,但这段时间的学习,让我基本摸清了文生视频的发展路径,了解到了sora为什么能横空出世,只是在这条路径中自己有太多不了解的地方,需要花时间去昂实相关基础。后续会一点一点补齐相关知识,用一些项目练习,相关文档和代码都会秉承Datawhale的开源理念,分享在优快云和Github上。
2024-03-12 15:19:11
727
原创 扩散模型基础学习
在变分自编码器(VAE)的一年后,生成对抗网络(GAN)出现,其特征是基于两个神经网络的协作来生成:一个生成器和一个鉴别器,涉及对抗训练过程。在文生图任务中,在输入文本信息的同时,还需random函数生成一个高斯噪声矩阵转为latent featrue的替代输入到SD模型的“图像优化块”中。以文生图任务进行讲解,即将一段文本输入到SD模型中,经过一定的迭代次数,SD模型输出一张符合输入文本描述的图片。在GAN发表六年后,去噪扩散概率模型(DDPM)出现,其结合了两模型的优势,擅长于创造多样化和逼真的图像。
2024-03-09 10:48:24
1133
原创 python GPU加速 以numba为例
本文主要在于记录针对于cuda的基础知识学习,在通过numba的实际例子了解如何在python中进行GPU运算
2024-03-06 17:29:53
1889
原创 whale-quant 学习 part7:量化回测
量化回测是金融领域中一种用于评估和验证交易策略的方法。它通过历史市场数据模拟交易策略的表现,为投资者提供了一种客观、系统化的手段,以便更好地理解策略的优势和劣势。
2024-02-03 09:55:32
1714
原创 whale-quant 学习 part6:量化择仓策略
本章节主要学习了量化投资的调仓策略,重点在于怎么去构建自己的投资组合,在适合自己的投资风险的证券里进行投资,并利用优化方法来辅助自己对自己挑选的证券,按什么比例进行持有。
2024-02-01 11:15:03
1058
转载 whale-quant 学习 part5:量化择时策略
本此学习主要了解如何通过技术面来判断买入和卖出的时间,但整体学完后,当前基础的技术面分析,多是一种滞后的分析,短期的股票买入和卖出时间比较难以精准的判断,这也是亏损和获利的关键点,所以股票中技术面的分析有价值,但并不能仅靠技术面分析。
2024-01-29 10:41:19
558
原创 whale-quant 学习 part4:量化选股策略
这一节的内容需要重复学习,主要是学习常见的一些选股模型,如何去选择自己的投资组合,以达到怎样的预期收益。股票投资:怎么选,什么时候买和卖、怎么调仓,这节教导了量化投资选股的策略和之前学过的长期投资的选股策略有差别,但有些地方也有重合。
2024-01-26 11:28:35
907
原创 whale-quant 学习 part3:股票数据获取
此章主要介绍在分析股票中,我们可以基于哪些数据去分析,已经通过哪些指标来进行分析,可以让我们较完善的了解一只股票的投资潜力,并介绍了两种常见获取股票数据的方法。
2024-01-23 16:19:05
2613
原创 whale-quant 学习 part2:金融市场的基本概念
主要了解金融市场的基本的概念,包括如何从宏观经济学来分析当前经济体环境对投资的影响,货币在金融中起到的作用及基本的投资学和数据统计知识点。
2024-01-20 11:05:26
1487
原创 whale-quant 学习 part1:投资与量化投资
本文基于Datawhale开源社区的whale-quant学习,了解量化投资和投资两种的具体差异,以及量化投资的实现路径,以此为基础逐步完善对于量化投资的知识储备,为具体实践筑基。
2024-01-16 10:43:20
1147
原创 [pytorch笔记]04 --进阶训练技巧
pytorch进阶使用技巧 包含自定义损失函数、动态调整学习率、对预训练模型的微调方法、数据增强、半精度训练,快速调参方法(主要是超参数)
2022-09-21 20:22:08
716
原创 [pytorchb笔记]03 --模型
pytorch学习第三弹,主要是关于模型使用相关,分为三块(模型定义方式、如何将层模块化,模型的修改、保存于存储),复杂点在于最后一模块的多卡和单卡的匹配问题
2022-09-17 16:25:57
379
原创 [pytorch笔记]02-主要组成模块&基础实战
pytorch学习第二弹,主要涉及数据读取及数据格式调整,定义模型后执行训练过程,优化器及损失函数的基础
2022-09-15 11:03:29
454
原创 数字信号处理--几种常见的数字滤波器实现原理
参考:数字信号处理公式变程序(四)—巴特沃斯滤波器(上)滤波器现代滤波器理论研究的主要内容是从含有噪声的数据记录中估计出信号的某些特征或者信号本身,估计出的信号的信噪比将比原信号的高,将信号和噪声都视为随机信号,利用其统计特征导出一套最佳的估计算法。设计的步骤:给出所需的滤波器的技术指标;设计一个H(z)H_(z)H(z)使其逼近所需的技术指标;实现所设计的H(z)H_(z)H(z),其中步骤2是本章和下一章所讨论的主要内容。按功能分类按相位响应分为线性相位和非线性相位;按特殊要求
2022-04-29 15:10:47
10963
原创 django-webscoket连接
什么是webscoketWebSocket是一种在单个TCP连接上进行全双工通信的协议WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就直接可以创建持久性的连接,并进行双向数据传输现在,很多网站为了实现推送技术,所用的技术都是轮询。轮询是在特定的的时间间隔(如每1秒),由浏览器对服务器发出HTTP请求,然后由服务器返回最新的数据给客户端的浏览器。这种传统的模式带来很明显的缺点,即浏
2022-04-29 15:07:01
851
1
原创 g++ 编译问题记录
g++基础G++手册#预编译g++ -E main.c -o main.i#编译g++ -S main.i#汇编g++ -c main.S#链接g++ mian.o -o main编译的步骤说明预处理:处理#号的定义命令或语句,生成*.i文件编译:语法分析、词法分析和语义分析等,生成*.s文件进行汇编:将对应的汇编指令翻译为机器指令,生成可重定位的二进制目标文件dll链接方式//隐式链接 由编译器完成对DLL的加载盒程序结束时对DLL的卸载//优缺点 简单实用,但缺乏灵
2022-03-24 11:24:01
585
原创 matlab-AR模型的使用
AR模型概念自回归模型,统计上处理时间序列的方法,使用同一变量的之前的数据,来预期本期的表现(前提存在线性关系)公式定义Xt=c+∑i=1pφiXt−i+εtX_{t}=c+\sum_{i=1}^{p}\varphi_{i}X_{t-i}+\varepsilon_{t} Xt=c+i=1∑pφiXt−i+εt其中c是常数项;εt\varepsilon_{t}εt被假设为平均数等于0,标准差等于σ\sigmaσ的随机误差值;σ\sigmaσ被假设为对于任何的t都不变matlab使用方法
2022-01-26 10:17:37
8156
1
原创 PYQT5适用解惑手册
打包生成exe文件出现问题问题一 调用多进程函数时,弹出多一个相同界面,怎么解决?在进程函数后面加 multiprocessing.freeze_support()问题二 调用自定义的dll文件出现路径问题将dll文件直接和exe文件同目录,在将py文件中的调用路径直接设置为 xxx.dll...
2021-10-20 09:35:27
321
原创 可视化-词云图
参考:https://blog.youkuaiyun.com/kun1280437633/article/details/894742841、前期步骤:获得一份待分析的文本数据,使用jieba库将这些段落划分成词;分词后,根据分词结果生成词云,使用wordcloud;使用matplotlib进行展现;#导入对应的库import jiebaimport matplotlib.pyplot as pltfrom PIL import Imagefrom wordcloud import WordClo
2021-07-07 14:57:36
353
原创 python-进程、线程、协程
异步I/O参考文献1参考文献2参考文献3python异步协程python-进程/线程线程教学python开启进程的两种方式进程、线程、协程**进程:**正在进行的一个过程或者说一个任务,执行任务的是CPU,一个程序在一个数据集上的一次动态执行过程。程序是代码,进程是计算核心,一个程序可以开启多个进程。进程结构:程序-数据集-进程控制块(系统感知进程存在的唯一标识,用它控制和管理进程)**线程:**进程的下级单位,操作系统中能够进行运算调度的最小单位如:洗衣房有n个洗衣机,安排m
2021-04-22 13:55:42
214
原创 json的若干问题记录
json(Javascript Object Notation)基础介绍一种轻量级的数据交换格式,易于人阅读和编写。语法规则数据为键值对数据由,隔开大括号保存对象方括号保存数组python函数描述json.dumps将python对象编码成JSON字符串json.loads将以编码的JSON字符串去掉s则是文件操作类型对照表JSONPythonobjectdictarrayliststringunicode
2021-03-12 14:53:35
191
原创 ctypes的应用笔记
ctypes作用:c/c++与python混合编程的中间库官方文档:https://docs.python.org/zh-cn/3/library/ctypes.html#数据类型参照表:c-typecpythonc_bool_Boolboolc_charchar1-character bytes objectc_wcharwchar_t1-character stringc_bytecharintc_ubyteunsigned cha
2021-03-08 14:04:26
233
1
原创 FastAPI的应用
什么是FastAPI高性能的python的web框架使用ASGI为引擎pip install fastapipip install uvicornhttp使用1.1协议FastAPI体量很小,需要自己安装一些扩展插件丰富功能如:jinja2,websocket等例子1-与前端使用http协议进行交互main.pyfrom fastapi import FastAPI#主类from starlette.responses import HTMLResponse#starlette插件库
2021-03-02 10:09:11
469
原创 jquery中的定时器-jquery.timers-1.1.2.js
jquerytimers-提供3个函式:everyTime(时间间隔,[计算器名称],函式名称,[次数限制],[等待函式程序完成])//每1s执行函数test()//1s=10$('body').everyTime('1s','A',test,5);//计时器名称为A最多执行5次//每1s执行一次,执行无数次(默认为0),若抵达时间,函数还未执行完毕,则等待。$('body').everyTime(10,'B',test,0,true);oneTime(时间间隔,[计时器名称],呼叫的函式
2021-02-23 09:12:43
3159
AIGC+VAE+图像生成
2024-03-07
pytorch-FashionMNIST实战项目
2022-09-16
特征选择 过滤法 relief算法
2022-04-20
LSTM(长短期记忆神经网络)的小项目
2020-09-18
爬虫-爬取豆瓣2019电影排行榜的信息,不是top250那个。
2020-10-10
中国各城市天气查询程序
2020-11-07
生成随机黑白动态验证码,并显示FPS
2020-09-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅