自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 inspector安装使用笔记

注意:运行spector 需要系统能够执行npm命令,没有安装npm的可查看。

2025-04-24 09:22:16 2355

原创 广义优势估计(GAE):PPO算法的核心技术与数学深度解析

广义优势估计(Generalized Advantage Estimation, GAE)是强化学习算法中的关键技术,特别是在近端策略优化(PPO)中发挥着核心作用。本文从基础概念出发,深入探讨GAE的数学原理、推导过程、实现细节及其在偏差-方差权衡中的重要作用。

2025-10-30 14:57:11 972

原创 高斯分布及其线性变换

随机变量XXX服从均值为μ\muμ、方差为σ2\sigma^2σ2的高斯分布,记作X∼Nμσ2X∼Nμσ2。fx12πσ2e−x−μ22σ2fx2πσ2​1​e−2σ2x−μ2​μ\muμ(均值):决定分布中心位置σ2\sigma^2σ2(方差):决定分布的离散程度两个或多个独立的高斯随机变量之和,本身也是一个高斯随机变量。数学表达X∼NμXσX2X∼NμX。

2025-09-26 10:13:57 891

原创 ppo-clip算法解决平衡杆小车问题

本文将PPO2算法(ppo-clip)应用于解决Cartpole问题,给出python编码实现ppo2算法的细节

2025-09-25 09:36:03 983

原创 深入理解强化学习PPO算法(附带pyhton代码)

PPO1算法通过引入KL散度惩罚项来约束策略更新的幅度,确保新策略不会偏离旧策略太远。这种方法的主要优点是提供了理论上的稳定性保证,适合对安全性要求高的应用。主要缺点是计算相对复杂,需要计算KL散度并自适应调整惩罚系数,这增加了实现难度和计算开销。PPO2算法通过裁剪机制约束策略更新幅度,在保持训练稳定性的同时实现了高效优化。实现简单,无需复杂约束优化计算高效,适合大规模应用超参数少,易于调参在大多数任务中表现良好PPO2已成为强化学习领域的基准算法。

2025-09-25 09:15:34 1260

原创 强化学习策略梯度算法梳理:从REINFORCE到PPO2(REINFORCE、QAC、A2C、Off-Policy AC、PP01、PPO2))

策略优化方法的发展过程梳理,从REINFORCE到ppo2(REINFORCE、QAC、A2C、Off-Policy AC、PP01、PPO2)

2025-09-23 14:29:09 669

原创 重要性采样在抛硬币问题中的应用与原理详解

重要性采样(Importance Sampling)是一种统计方法,用于估计难以直接采样的目标分布的期望值。它通过从一个易于采样的提议分布中抽取样本,并通过调整这些样本来逼近目标分布的性质。本文将通过一个抛硬币的具体例子,详细解释重要性采样的计算过程、数学推导,并通过模拟数据和可视化展示其工作原理。

2025-09-15 16:46:19 730

原创 向量 x 的方差 Var(x)

向量x\mathbf{x}xVarxEx−μx−μTVarxE[(x−μx−μTμExEx1Ex2⋮ExnμEx​Ex1​Ex2​⋮Exn​​​是向量x\mathbf{x}x的期望值(均值向量)。x−μTx−μT是差值向量的转置。项目标量随机变量XXX随机向量x\mathbf{x}x期望标量EXE(X)EX向量ExEx方差标量VarXVarX矩阵。

2025-09-15 10:39:16 555

原创 python实现MySQL连接和常用增删改查操作 (SQLAlchemy 异步ORM)

本博客涵盖了使用 SQLAlchemy 异步 ORM 进行 MySQL 数据库操作的常用内容,包括:1.数据模型定义和数据库初始化2.完整的 CRUD 操作示例3.丰富的查询操作和条件组合4.高级查询技巧(关联、子查询、聚合等)5.生产环境最佳实践2. 数据库初始化项目文件结构.env.devconfig.pydatabase_init.pytest_mysql3. CRUD 操作1.新增1.单条新增2.批量新增2.查询数据1.查询单个用户2.查询所有用户3.

2025-07-29 10:55:37 579

原创 常用的数学符号整理

2025-07-18 20:10:04 770

原创 适配器做通用函数,实现对List<T>分页后传入并调用指定函数

批量导入数据,从excel解析数据后得到一个的集合myObjectList,然后将这个集合做了响应业务数据处理后,批量保存或修改到数据库中问题:当myObjectList很大时,比如上万条,如果myObjectList一次插入数据库saveALL(),或一次更新updateAll(),会导致:1.占用数据库性能。

2024-11-08 18:28:04 420

转载 springBoot--拦截器

过滤器,监听器,拦截器。

2024-07-11 09:50:51 96

原创 容器:特性、实例创建、成员函数调用

int val;

2024-06-28 14:20:41 399 1

原创 mysql 日常随笔

TIMESTAMPDIFF(minute, ‘2024-01-09 12:00:30’, ‘2024-01-09 12:00:40’) 与 TIMESTAMPDIFF(minute, ‘2024-01-09 12:00:30’, ‘2024-01-09 12:00:20’) 的计算结果是一样的。DATEDIFF( ‘2024-01-09 12:00:30’, ‘2024-01-08 14:00:10’) 的计算结果是一样的。第一个参数为minute时,计算粒度为分钟(秒不参与计算),

2024-01-19 09:00:42 599

原创 excel vba接触密码保护

这段vba代码,本质上是用的暴力枚举找到正确密码,枚举的字母范围较小,但是实际经验上看大部分的密码都能够接触。如果不行可增加枚举值的范围,比如:将for循环中的“65To66” 改为“65To127”右键点击任意一个sheet点击运行代码,进入vba开发者模式运行下述代码,第一次弹框提示:“密码已经被成功接触!”,接触成功第一次弹框提示:密码为:XXX如果sheet很多,可新建模式,复制运行下述代码。将下述代码中"AAABBAABAABh" 双引号中的内容替换为弹框提示的密码。

2023-10-16 08:57:14 577

原创 java 自定义序列化 @JsonSerialize null值赋默认值

定义序列化 需要继承 JsonSerializer类, 重写serialize方法。利用反射获取要序列化的对象的所有属性名和属性值判断:如果属性值为null,为不同类型的属性分别赋一个默认值,如:string类型赋"",Integer类型赋0,List集合赋空集等判读:如果属性值不为null,定义其他处理规则,如:保留指定小数位、添加/删除list中的元素等。

2023-09-26 21:24:44 2428

原创 错误解决 笔记

1、现象:使用 idea Debug启动 项目10分钟都没 启动 好项目,但使用 run 可正常 启动2、解决办法: 经排查,发现是某个方式打了断点,把该断点去掉即可。控制台也有相应的提示。使用ctrl + shift + F8 可打开断点管理界面,把断点全部放开后,则 debug启动 项目正常,待 Debug启动 成功后再打上断点。

2023-09-18 16:18:52 138

转载 sqlyog 安装配置+导出表结构和备注

​。

2023-09-06 19:53:00 310

原创 Markdown 编辑器的使用

在Markdown默认的语法下,一个Tab建是8个字符四个空格可以标识一个代码块,即创建一个代码块所以在平时用Markdown编辑文本时,习惯用Tab标识四个空格的小伙伴就难受了,那么如何标识首行缩进呢?如:    汉字2个缩进  英文2个缩进注意: 每个转义字符串表示一个空格,首行缩进两个字符,连续使用两个即可,注意不要忘加;符号。我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Comma

2023-09-06 19:46:31 2660

转载 sqlyog 安装配置+导出表结构和备注

此处用ie浏览器打开,若出现中文乱码,可在浏览器设置编码方式,选择正确的编码格式,一般是UTF-8。序列号(Code):8d8120df-a5c3-4989-8f47-5afc79c56e7c。序列号(Code):59adfdfe-bcb0-4762-8267-d7fccf16beda。序列号(Code):ec38d297-0543-4679-b098-4baadf91f983。下载后,双击安装包,傻瓜式安装,到注册环节,输入如下名称和秘钥。蓝色高亮为选中的字段,点击全选-》点击创建。

2023-09-06 15:23:18 554

原创 Git 入门学习笔记

本文参考。

2023-08-24 14:45:59 163

原创 mysql正则表达式

正则表达式主要用来查询和替换符合某个模式(规则)的文本内容。例如,从一个文件中提取电话号码,查找一篇文章中重复的单词、替换文章中的敏感语汇等,这些地方都可以使用正则表达式。正则表达式强大且灵活,常用于非常复杂的查询。

2023-08-24 14:39:23 210

原创 IDEA创建springBoot项目+连接mysql+整合Mybatis+MybatisGenerator

官网的MyBatis Generator使用介绍,请点击下面的链接:链接MyBatis Generator 生成的文件包含三类:(1)Model实体文件,一个数据库表对应生成一个 Model 实体;(2)Mapper接口文件,数据数操作方法都在此接口中定义;(3)Mapper XML配置文件。

2023-08-08 14:51:51 13391 2

转载 IDEA 连接mysql

首次使用需要下载驱动程序,不然连接数据库会报错。找到mysql,点击驱动程序文件下面的加号,点击提供的驱动程序,选择mysql驱动程序(mysql connector/J),然后选择驱动版本。如果安装的mysql是5版本,下载那个都可以,如果安装的8版本就下载8版本的驱动程序。驱动程序下载完成之后选择类,5版本mysql就选择图中的类com.mysql.jdbc.Driver。如果mysql是8版本就下载8版本驱动程序,选择图中com.mysql.cj.jdbc.Driver.

2023-08-07 16:27:58 6296

转载 Maven的下载安装配置教程(详细图文)

Maven就是一款帮助程序员构建项目的工具,我们只需要告诉Maven需要哪些Jar 包,它会帮助我们下载所有的Jar,极大提升开发效率。1.Maven翻译为“专家“, ”内行”的意思,是著名Apache公司下基于Java开发的开源项目。2.Maven项目对象模型(POM)是一个项目管理工具软件,可以通过简短的中央信息描述来管理项目的搭建,报告和文档等步骤。3.Maven是一个项目管理的工具,可以对项目进行构建、依赖的管理。

2023-08-04 17:30:59 2827

原创 mysql 下载、安装、添加到服务和环境、图形界面 HeidiSQ

mysql 下载安装配置。

2023-08-04 10:39:16 362

原创 redis7 下载安装添加服务和环境变量

redis7 下载安装添加服务和环境变量

2023-08-04 09:31:54 527

转载 深入研究java.lang.Class类

Java程序在运行时,Java运行时系统一直对所有的对象进行所谓的运行时类型标识。这项信息纪录了每个对象所属的类。虚拟机通常使用运行时类型信息选准正确方法去执行,用来保存这些类型信息的类是Class类。Class类封装一个对象和接口运行时的状态,当装载类时,Class类型的对象自动创建。      Class 没有公共构造方法。Class 对象是在加载类时由 Java 虚拟机以及通过调用类加载

2017-09-16 17:34:18 185

转载 Java中的反射机制

一、什么是反射:反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在Lisp和面向对象方面取得了成绩。其中LEAD/LEAD++ 、OpenC++ 、MetaXa和OpenJava等就是基于反射机制的语言。最近,反射机制也被应用到了视窗系统、

2017-09-16 17:15:08 173

转载 怎样在Eclipse中使用debug模式调试程序

怎样在Eclipse中使用debug模式调试程序最基本的操作是: 1, 首先在一个java文件中设断点,然后运行,当程序走到断点处就会转到debug视图下, 2, F5键与F6键均为单步调试,F5是step into,也就是进入本行代码中执行,F6是step over, 也就是执行本行代码,跳到下一行, 3,F7是跳出函数 4,F8是执行到最后。 

2017-04-23 10:26:38 379

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除