- 博客(9)
- 收藏
- 关注
原创 图像形状(b, c, h, w)转为(b, h*w, c)的轻松方法
【代码】图像形状(b, c, h, w)转为(b, h*w, c)的轻松方法。
2025-11-26 12:47:32
67
原创 pytorch_fid 报错 ValueError: Imaginary component
【代码】pytorch_fid 报错 ValueError: Imaginary component。
2025-10-23 12:18:26
210
原创 刚得到了Ubuntu系统的电脑,想记录一下踩过的坑
1. Ubuntu 24.04 想下载一个搜狗输入法,于是卸载了iBus, 安装了fctix。卸载了fctix, 又装回iBus, 卡死问题解决。
2025-08-05 11:04:05
108
原创 Python os.listdir()顺序问题
这时,用image_names = os.listdir(image_path)得到的文件名并不是按照预想的每一帧编号的顺序,而是: 1.png, 10.png ...可以通过image_names.sort(key=lambda x: int(x[:-4])) 以文件名的int数值部分为基准进行排序,获得想要的的顺序。如果保存的图像文件名不是数字,也可以根据命名规律,选取文件名中合适的部位,用.sort()进行排序。
2025-06-05 13:26:47
413
原创 Transformer特征图嵌入时间步数字
2. 可以和原本的正余弦编码一样,在c方向进行编码。假设一共有N个不同的数字,那么产生的positional encoding维度就是(b, N, c),再expand成(b, N, h*w, c)形状,根据数字的具体值,在N维度上取出1个,作为当前数字的编码(b, h*w, c),加到特征图上。1. 假设输入为(b, h*w, c),可以把数字扩展成(b, 1, c)的形状,然后concat到h*w维度的后面,这样就变成了h*w+1维,再通过conv1d调整回h*w维。这样模型明显增大了。
2025-05-08 10:23:44
201
原创 Window-based self attention输入特征图形状问题
如果想保证特征图大小不变,可以使用torch.nn.functional.pad(input, pad, mode, value)函数,先把特征图pad成可以整除的大小,注意假设这个函数的pad=(1,1,2,2,3,3),则是在最后一个维度前后pad1,1, 倒数第二个维度前后pad2,2, 倒数第三个维度前后pad3,3, 也就是维度从内到外依次pad,要注意输入是(H, W, C)还是(C, H, W)。
2025-04-22 09:40:57
269
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅