- 博客(57)
- 收藏
- 关注
原创 RLHF、PPO和GRPO
符号含义StS_tSt时刻ttt的输入 token 序列(上下文)AtA_tAt在状态StS_tSt下,模型预测的下一个 token(动作)RtR_tRt时刻ttt的即时奖励(immediate reward),由 Reward 模型给出VtV_tVt时刻ttt的价值函数估计(value estimate),即从ttt开始的预期总回报,由 Critic 模型输出γ\gammaγ折扣因子(discount factor),通常0γ≤10。
2025-09-25 14:43:31
1301
原创 ROC/AUC、mAP 和 AP50
(Average Precision,平均精确度)衡量模型在不同召回率(Recall)下精确率(Precision)表现的综合指标。在 Recall 范围 [0.00, 1.00] 内均匀选取 101 个阈值(步长 0.01),对每个阈值,取该 Recall 水平下可达到的最高 Precision 值,最终对这些值求平均,即为。的方式进行插值,确保 Precision 随 Recall 增加不递增。为消除 Precision 曲线中的“波动”,COCO 采用。:IoU < 0.5,或已匹配过的 GT。
2025-09-24 10:06:31
762
原创 L1和L2正则化以及weight_decay
在损失函数中加入模型权重的绝对值之和Loss原始损失λ∑i∣wi∣\text{Loss} = \text{原始损失} + \lambda \sum_i |w_i|Loss原始损失λi∑∣wi∣wiw_iwi是模型的第iii个权重参数;λ\lambdaλ是正则化强度超参数,控制惩罚力度。在损失函数中加入模型权重的平方和Loss原始损失λ∑iwi2。
2025-09-22 11:31:07
884
原创 信息量、熵、KL散度和交叉熵
大家都说,熵是用于衡量信息量的多少。那么信息量又是什么呢?一种解释是:信息量更多,代表消除了更多的不确定性。对于某个事件 xxx,如果它的概率 p(x)p(x)p(x) 很大(例如“明天太阳会升起”,概率几乎为 1),那么即使它发生了,由于它发生的概率很大,本身几乎没有不确定性,所以消除的不确定性也特别小,因此它的信息量就更少。反之,如果一个事件非常罕见(如“明天下陨石”),一旦发生,就会极大地改变我们的认知,带来巨大的“信息冲击”,因此它的信息量就非常大。由此,我们认为:概率越大,信息量越少;概率越小,信
2025-09-21 21:26:49
948
原创 KV Cache 原理与常见问题
KV Cache(Key-Value Cache),又称注意力缓存,是 Transformer 模型在中用于加速生成的技术。
2025-09-20 09:54:24
489
原创 BN、LN和RMSNorm的区别
特性归一化维度(B, H, W)for eachC(T, D)for eachB(or lastkdims)统计量计算范围跨 batch,按 channel跨特征,按 sample参数γ, β维度(C,)(D,)是否有✅ 有❌ 无依赖 batch size✅ 是❌ 否典型应用场景CNN✅γ和β均为可学习参数,维度等于归一化的特征数(如通道数或 embedding 维度)。
2025-09-19 11:32:01
678
原创 位置编码的设计演进:从整数标记到旋转编码
原有的位置编码存在位置编码没有上界、泛化性差的问题正余弦位置编码旋转位置编码类型绝对位置编码相对位置编码实现方式加到embedding上乘到Q和K上外推能力差好相对位置建模弱强计算开销低略高。
2025-09-16 11:08:44
1092
原创 karpathy GPT2 视频
可以与try-except语句结合使用,从而在异常发生时启动交互式调试环境,帮助你检查程序的状态和调试问题。这种方法通常用于在出现错误时,提供一个即时的交互式环境,使你能够查看错误的上下文并手动调试。
2024-12-13 10:21:14
184
原创 深度学习:Normalization
我个人理解,其实就是对卷积层的输出做一个正则化,但是这样可能缺乏灵活性实际效果不好,因此又添加了可学习的两个参数来以一种可学习的方式“恢复”。公式如下,对于神经网络的第l层,有其中m代表batch数,γ和β都是可学习的参数。训练时,会去计算每个batch的μ和σ,但在实际测试中中,μ和σ应该用的都是全局的,在训练时会以动量更新等方式进行更新。
2024-01-16 10:43:32
640
1
原创 pytorch:光流预测与grid_sample
最近在跑一个经典的光流估计的模型RAFT,我想用其预测出来的光流对输入的第一张图片进行warp,但是一直调不通。参考了网上许多教程之后终于搞明白了。
2023-12-14 15:41:28
1493
1
原创 Python编程: contextlib.redirect_stdout 增加更多灵活性
这个可以将一些硬编码输出到标准输出的模块增加灵活性。可以通过上面的代码让原本输出到标准输出的cocoEval.summarize模块输出的信息,重定向到一个StringIO中。
2023-11-11 17:40:05
424
原创 论文阅读:Calibrating Uncertainty for Semi-Supervised Crowd Counting (ICCV 2023)
尽管利用不确定度估计以及在很多CV领域得到应用,但是由于人群分布的不均匀性以及人群的尺度变换、遮挡等因素的影响,不确定度在人群计数中仍然是一个挑战。有一些人群计数通过比较不同模型预测的一致性来估计不确定度(比如利用teacher-student模型),但是这些方法完全依赖于模型在未标注图片上的预测,并不能保证可靠性。其中M是匹配上的部分,计算的是匹配点之间的距离。本质上是在比较模型预测与GT之间的相似性,这种相似性是通过距离衡量的。下面的图感觉是数值越低不确定度,是通过直接比较密度图得到的不确定图。
2023-10-08 11:29:14
510
原创 论文写作表达摘录
when a higher quality and preservation of sharp shape features are required. (falls short: 赶不上)from MeshCNN (SIGGRAPH19)a combination of convolution, non-linearity and pooling layers (成功的窍门是以....为特点的) from MeshCNN (SIGGRAPH19)
2023-09-25 10:31:44
160
原创 CV工具:html4vision
在查看数据集图片时,需要经常查看多张图片,有时候还需要共享给别人。直接复制粘贴挺麻烦的,这时可以用这个非常nice的html5vision库。直接pip install就可以了。详细内容可以参考github链接的readme。
2023-08-04 14:11:07
509
原创 工具:tmux
在跑代码时经常需要监控多个终端,如果有很多个窗口的话会很影响心情。不过这个tmux似乎只能在Linux类操作系统上进行,windows下可能要借助wsl或者git bash进行。,此时tmux将打开一个会话列表,按上下键(⬆︎⬇︎)或者鼠标滚轮,可选中目标会话,按左右键(⬅︎➜)可收起或展开会话的窗口,选中目标会话或窗口后,按回车键即可完成切换。我目前是在window终端中ssh到服务器上,服务器上安装了tmux。因此我可以直接在终端上使用tmux。别担心,我们可以使用对应的tmux快捷键。
2023-07-20 14:45:09
194
原创 Pytorch笔记:关于MSELoss的用法
MSELoss的reduction参数有三个取值,分别是mean, sum和none,一直搞不太清楚,所以这里写个笔记记录一下。1. mean当reduction参数设置为mean时,会返回一个shape为[]的标量,其值是每个位置上元素的差的平方的和的均值。输出:2. sum当reduction参数设置为sum时,会返回一个shape为[]的标量,其值是每个位置上元素的差的平方的和的总和。输出:3. none当reduction参数设置为none时,保留原始维度
2023-04-09 23:12:59
948
原创 人群计数论文阅读:Leveraging Self-Supervision for Cross-Domain Crowd Counting
基于uncertainty及翻转分类的跨域自监督
2023-02-16 10:31:51
469
1
原创 Pytorch笔记:操作维度的permute、reshape/view、eniops
pytorch的permute和reshape/view的区别
2022-12-29 11:28:01
737
原创 Pytorch笔记:根据参数动态构造模型结构
在做实验时,经常要比较相似模型的不同结构对性能的影响。通过传递参数的方法可以很方便地构造出不同的模型结构,从而快速完成模型搭建的工作。
2022-12-28 10:42:17
369
原创 Python编程:安装自己编写的包
最近在跑人群计数代码时,有一些自己经常用到的代码,每次要用时再写一次总是很麻烦,所以想着把这部分常用的代码封装成库,以便于随时随地使用。
2022-12-26 15:26:46
551
原创 ML笔记:sklearn的k近邻与可视化
(第一行代码的括号里可以指定只寻找某些点的K紧邻。格式是[[x1,y1],...] )代码中的plt.annotate是标注文字,xy是标注的坐标,xytext是文字的坐标。indices: 离每个点最近的k个点的索引。
2022-12-11 16:38:13
371
原创 Python编程:基于multiprocessing的Pool的并行计算
之前做机器视觉任务处理图片时会遇到耗时较长的情况,当时就想着如果使用多进程应该能有提升。于是这里先做一个代码框架的记录,以后需要时再用上。
2022-12-10 17:57:23
883
原创 PyTorch笔记:修改模型中的某些权重参数
之前尝试复现MCNN,但由于这是16年的工作,现有的许多代码由于版本等各种各样的问题,所以我都跑不起来。在那些能跑起来的代码里又没有给权重,后来发现一个给了权重,但是确实.h5格式的,不能直接由Pytorch加载。而且里面参数名都有一个前缀DEM.,需要匹配前缀并且加载到模型中。
2022-12-10 16:31:04
1960
1
原创 PythonWeb开发:90分钟用Flask搭建博客
来自https://www.bilibili.com/video/BV1gh411q7xo?p=2&vd_source=54aa98683b2f8392aec4499961f896ce1. 环境准备1.1 搭建虚拟环境在项目文件夹下打开控制台,输入python -m venv myvenv就能新建一个叫做myvenv的虚拟环境。执行之后会在目录下看到一个myvenv的文件夹...
2022-12-03 11:16:00
588
原创 CV工具:可视化工具wandb(三) 实战
完整翻译文档效率太低,以后从实战入手记录重要的信息1. 代码示例import wandbconfig = dict ( learning_rate = 0.01, momentum = 0.2, architecture = "CNN", dataset_id = "peds-0192", infra = "AWS",)wandb.init( proje...
2022-12-03 11:16:00
325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅