henyaoyuancc-优快云博客

原创强化学习知识总结

定义：从当前状态 s 开始，按照某个给定的策略 π 行事，平均能获得多少回报（累积奖励）状态（s）：是智能体对环境的一个描述。例如，在国际象棋中，状态就是棋盘上所有棋子的位置。策略（π）：是智能体的行为准则。它是一个函数，告诉智能体在某个状态下应该采取哪个动作（a）。它可以是一个确定的规则（如：在红灯状态下的动作是“停”），也可以是概率性的（如：有90%的概率选择最优动作，10%的概率探索其他动作）。价值（V）：是一个数字，代表了该状态的长期期望价值。

2025-08-22 15:54:31 420

原创 ZeroMQ 代理架构实现（Python 服务端 + C++ 代理 + C++ 客户端）

使用zmq，服务端用python 开发，服务和客户端不能直接通信，需要中转或代理，客户端和代理用c++开发，请给出三处的程序。

2025-07-09 17:38:23 544

原创知识学习总结

@[TOC](知识学习总结)狭义相对论推导有两个前提假设，光速绝对不变以及所有参考系平等时间膨胀和长度缩减结论推导的基础是洛伦兹变换。洛伦兹变换推导过程，有一处关键地方是假设A=D，为什么假设A=D，因为A D都是同量纲的一个系数：

2025-07-01 15:05:01 327

原创与算法相关的一些数学物理理论知识

KL 散度，又称相对熵，是信息论和概率论中用于衡量两个概率分布差异的指标。它并非对称距离，而是描述当用概率分布 Q 近似表示真实分布 P 时所产生的信息损失。Q 与 P 差异越大，KL 散度值越大，反映了用 Q 近似 P 时的信息损失增加。

2025-06-11 17:37:31 252

原创 vla学习富

针对连续动作生成的挑战，论文采用了一种基于扩散思想的流匹配方法（flow matching），使得模型能够生成高频（例如 50Hz）且精细的动作序列。其核心思想是在预训练好的视觉语言模型（VLM）基础上添加一个“动作专家”（action expert），通过流匹配（flow matching）的方式生成连续的高频控制指令。论文中使用了来自 7 种不同机器人配置、68 个任务的大规模数据（总计约 10,000 小时），实现跨平台、跨任务的联合训练，从而提升模型的泛化能力。## 训练流程：预训练 + 后训练。

2025-06-09 10:00:30 341

原创 vla学习

π0，开源π0.5hi Robot。

2025-06-09 09:12:53 1041

原创 mamba学习

添加链接描述

2025-01-09 19:55:59 261

原创 llm大模型学习

模型规模是提升LLM大语言模型性能的关键因素，但也会增加计算成本。Mixture of Experts (MoE) 架构通过分布式专家层和动态门控机制，有效降低了计算资源，使模型能够在扩展参数规模的同时保持高效的运行。因为MoE是稀疏的。典型的MOE结构包括两个部分：transformer结构中，每个token（分词）是一个向量。哪个token被分到哪个或哪些专家模型。比如有的网络专家适合处理数字，有的网络专家适合处理动词等。所以门控或路由是一个线性层，路由层的输出维度等于专家数量。定义 Wg为路由层权重

2025-01-07 14:47:47 808

原创再学transformer

位置编码分为相对位置编码、绝对位置编码、旋转位置编码。

2024-11-28 20:18:23 266

原创点云分割总结

python的标准包Queue只能用于单进程内。进程间通信使用multiprocessing.queue，这个仅限于子进程间通信。如果还要父进程子进程间通信，使用multiprocessing.manager.queue。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

2024-11-07 09:04:53 913 2

原创 Diffusion大模型

DDPM很好的视频讲解

2024-07-23 16:59:22 486

原创 3D cloud point detection

其中P代表选取的Pillar数量，N是每个Pillar存储的最大点云数量，D是点云的属性，P和N都是超参数，需要根据激光雷达的线束和Pillar中点云数量设置，论文中使用取P=30000,N=20。如果某个Pillar中的点云数量大于20个，则多余的丢弃，若少于20个，则用0 padding补充。PointPillars的最大贡献是在VoxelNet中Voxel的基础上提出了一种改进版本的点云表征方法Pillar，可以将点云转换成伪图像，进而通过2D卷积实现目标检测。

2024-04-29 11:31:17 402

原创目标检测DETR系列

因此decoder的learnable query实际指代的是位置信息。encoder和decoder里attention和query和key都是由两部分组成的，比如encoder里的query分别来自于图像特征（包含语义信息）和位置编码（包含位置信息），因此这两部分分别称为content query（对应图像特征）和positional query（对应位置编码）。他将目标检测建模成集合预测的任务，即输入一组（如100个）learnable的query，然后输入对应数量（如100个）的物体预测结果。

2024-02-23 15:07:36 843

原创机器学习基础

马尔可夫链（Markov Chain）可以说是机器学习和人工智能的基石，在强化学习、自然语言处理、金融领域、天气预测、语音识别方面都有着极其广泛的应用The future is independent of the past given the present 未来独立于过去，只基于当下。过去所有的信息都已经被保存到了现在的状态，基于现在就可以预测未来。

2024-01-11 14:00:16 497

原创 BEV、tranformer算法总结

Attention 机制由 Bengio 团队于 2014 年提出，并广泛应用在深度学习的各个领域。而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提升，Bert 正是基于双向 Transformer。Transformer 是第一个完全依赖于 Self-Attention 来计算其输入和输出表示的模型，而不使用序列对齐的 RNN 或 CNN。

2023-12-19 11:00:04 2540 1

原创 Protocol Buffer 简介

Protocol Buffer 序列化之后得到的数据不是可读的字符串，而是二进制流XML 和 JSON 格式的数据信息都包含在了序列化之后的数据中，不需要任何其它信息就能还原序列化之后的数据；但使用 Protocol Buffer 需要事先定义数据的格式(.proto 协议文件)，还原一个序列化之后的数据需要使用到这个定义好的数据格式在传输数据量较大的需求场景下，Protocol Buffer 比 XML、JSON 更小（3到10倍）、更快（20到100倍）、使用 & 维护更简单；

2023-10-24 11:34:03 124

原创 linux指令及常见问题解决

【代码】linux指令及常见问题解决。

2023-09-27 09:46:41 120

原创语义分割学习

实力分割学习和总结

2023-02-15 15:00:37 1367 1

原创文档技能学习

文档技能学习

2022-09-06 17:06:45 658

原创跟踪算法学习

跟踪算法的学习和总结

2022-07-04 13:37:34 282

原创 ros编程学习

ros基础知识总结，入门知识整理

2022-06-10 17:47:50 581

原创多任务学习

深度学习学习中，多任务了解

2022-06-02 14:55:07 856 1

原创目标检测-自动驾驶

目标检测-自动驾驶1 简介2 End-to-End Trainable One-Stage Parking Slot Detection Integrating Global and Local Information2.1 全局特征2.2 局部特征2.3 两分支的信息整合1.11 简介有前视图、后视图、周视图、环视图等概念2 End-to-End Trainable One-Stage Parking Slot Detection Integrating Global and Local Infor

2022-05-30 16:13:04 1134

原创以图搜图技术总结

以图搜图1 以图搜图1.11 以图搜图1.1参考github总结

2022-02-28 11:48:03 816

原创 DL基础知识

深度学习基础1 归一化1.1 BN1.1 LN1 归一化1.1 BN1.1 LN又叫layer normalization层归一化，一般用在nlp中。LN的主要思想是:是在每一个样本(一个样本里的不同通道)上计算均值和方差，而不是 BN 那种在批方向计算均值和方差！看源码我们也可以看出来，其中outputs的shape=(btz, seq_len, dim)mean = K.mean(outputs, axis=-1, keepdims=True) #mean的shape（btz, seq_l

2022-02-14 17:12:05 1805

原创训练策略介绍

训练策略1 学习率1.1 余弦退火1.2 warm up1 学习率1.1 余弦退火训练时当越来越接近Loss值的全局最小值时，学习率应该变得更小来使得模型尽可能接近这一点，而余弦退火（Cosine annealing）可以通过余弦函数来降低学习率。余弦函数中随着x的增加余弦值首先缓慢下降，然后加速下降，再次缓慢下降。这种下降模式能和学习率配合，以一种十分有效的计算方式来产生很好的效果简单的单步长余弦退火，pytorch中cawb_steps 为 []多 step 重启动，训练时陷入局部最小之后，

2022-02-11 18:26:05 2383

原创 DL目标检测

目标检测YOLO系列归并排序YOLO系列NameAcademyscorescoreHarry PotterGryffindor90scoreHermione GrangerGryffindor100scoreDraco MalfoySlytherin90score归并排序归并排序使用归并的思想

2022-02-10 15:34:06 2300

原创聚类算法总结

聚类算法的分类聚类算法有很多种分法，体系也很大，这里举例几种分法：基于划分的聚类：聚类目标是使得类内的点足够近，类间的点足够远，常见的如k-means及其衍生算法基于密度的聚类：当邻近区域的密度超过某个阈值，则继续聚类，如DBSCAN; OPTICS层次聚类：这个下面会具体介绍到，包括合并的层次聚类，分裂的层次聚类，实际上可以看作是二叉树的生成和分裂过程。下面会介绍实际应用中常用的HDBSCAN基于图的聚类：通过建图来进行聚类，这是聚类算法中的大头，很多较新的聚类算法都有图聚类的思想。这篇文章会

2022-01-24 17:17:46 1660

原创知识蒸馏综述

知识蒸馏简介logit蒸馏开山之作简介蒸馏算法分为多种，基于特征、logit以及基于关系的三种logit蒸馏开山之作论文名称：Distilling the Knowledge in a Neural Network Hilton 2015提出了标签温度的概念，温度T越高，标签越soft具体步骤：1）在T=1时训练教师网络2）在高温下用teancher softmax输出的概率作为soft label，与GT的hard label进行融合训练hard损失使用交叉熵损失，soft损

2022-01-07 15:29:18 2301

原创 reid技术总结

rerank，这个讲的比较通俗rerank

2021-12-27 17:24:00 1767

原创特征检索总结

特征检索Product Quantization乘积量化训练量化查询Product Quantization乘积量化PQ系列的算法大致的套路分三个阶段：训练、量化、查询训练假设特征向量维度D=64维，将原始的D维向量分成M=8段，那么每段的子维度subD=8。对每个段的sub特征进行聚类，一般使用KNN，假设聚类中心数k=256，这样也就得到了M*k个聚类中心，也叫码本。量化训练阶段得到了得到了M*k个聚类中心即码本，每个聚类中心都是一个sub向量，这个码本太长了不好表示，我们想有一个类似索引

2021-12-09 14:55:17 2248

原创 c++语法总结

c++语法总结模板模板函数类模板模板模板是泛型编程的基础，泛型编程是独立于任何数据类型的编程方式，stl的vector、map、stack等都可以使用不同的数据类型模板函数函数返回值，或函数参数均可以是模板类型template<typename T>inline T const& Max(T const&a, T const& b){ return a < b ? a : b;}cout << "Max(i,j): " <

2021-12-01 09:49:09 797

原创排序算法介绍

排序算法排序算法归并排序快速排序排序算法常见排序算法包括冒泡排序、归并排序、快速排序、堆排序等归并排序归并排序使用归并的思想，采用分治策略实现，先分后治，时间复杂度是nlog(n)，如下图所示，先将数组逐渐拆分，是为分，直至无法拆分，然后归并，是为治。结构很像一个二叉树，树的深度是log2（n)，治的阶段合并的时间复杂度是O(n)，因此归并排序的时间复杂度为O(nlogn)，归并排序的最好最坏情况时间复杂度相同实现方式，待补充快速排序快排也是用分治思想，三步走流程：(1) 选择基准值。(

2021-11-30 16:00:16 475

原创 c++算法总结

DFS79单词搜索检索特定路径，从二维字符里检索特定单词，使用dfs算法，当深度达标后，检索终止。-为了提升速度，要把false的情况，写在前面，及时返回。又是cout也会导致超时。递归实现的dfs：int dfs(vector<vector<char>>& board, string word, int i, int j, int depth){ //cout<<i<<j<<depth<<endl; i

2021-11-16 17:13:51 1211

原创 python开发

python开发多进程进程间通信&进程池多进程你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。进程间通信&进程池python的标准包Queue只能用于单进程内。进程间通信使用multiprocessing.queue，这个仅限于子进程间通信。如果还要父进程子进程间通信，使用multiprocessing.manager.queuedef worker(que

2021-11-15 11:55:59 796 2

原创 3D检测算法基础知识学习

3D点云数据大多数点云数据是由3D扫描设备产生的，例如激光雷达(2D/3D)，立体摄像头(stereo camera)，越渡时间相机(time-of-flight camera) 。这些设备用自动化的方式测量在物体表面的大量的点的信息，然后用某种数据文件输出点云数据。这些点云数据就是扫描设备所采集到的。数据的格式，就是(x,y,z)*n点云数据格式介绍1点云数据格式的可视化点云数据是3D激光雷达扫描仪的基本输出。这通用的点云数据文件形式是3D坐标文件(经常指一个xyz文件)。这些文件是ASC

2021-09-19 18:33:05 752

原创 tensorRT加速pytorch模型

pytorch模型保存方法简单的保存方法# 保存整个网络torch.save(net, PATH) # 保存网络中的参数, 速度快，占空间少torch.save(net.state_dict(),PATH)#--------------------------------------------------#针对上面一般的保存方法，加载的方法分别是：model_dict=torch.load(PATH)model_dict=model.load_state_dict(torch.load(

2021-08-19 11:04:47 422

原创 seq2seq

学习seq2seq，讲内容记录下来

2021-03-16 20:49:48 955

转载使用神经网络学习逻辑或的运算

2019-04-01 16:52:52 1469 1

原创 python和c的比较（内存和效率）

内存在Alex视频课程中得知Python中：a=2b=aa=3该过程中的内存储存方式为：1、先再内存中开栈存储2这个数据的空间2、a指向数据为2的内存空间地址3、b=a 此时b指向2的内存空间的地址4、a=3 内存中开栈存储3这个数据的空间5、此时a=3中，a重新指向数据为3的内存地址总结：Python是动态语言，变量只是对象的引用静态存储方式所谓静态存储方式是指在程序编...

2019-03-22 17:24:59 6495

空空如也

空空如也