
paper阅读及复现
文章平均质量分 82
小马敲马
这个作者很懒,什么都没留下…
展开
-
PIDNet(语义分割)排坑
paper小修时reviewer说baseline太老,所以对CVPR2023的PIDNet进行复现,用于下游任务的baseline。所以写一个记录说明完整的过程,同时要说的是:没有从0开始训练,用的PIDNet作者提供的在ImageNet上训练的预训练权重来继续训练的。数据集我是用的是无人机航拍数据集AeroScapes,VOC格式。解决了两个问题:[1] 基础模型只支持cityscapes和camvid数据集,现在我支持了VOC格式的分割数据集。原创 2024-10-31 19:00:48 · 1396 阅读 · 0 评论 -
FCN训练Aeroscapes数据集
首先我要用aeroscpaes数据集训练fcn8s,所以开始对examples/voc/train_fcn8s.py中的代码进行修改。train_fcn8s.py中调用train_fcn32s.py的git_hash函数全部删除了,因为这个函数就是输出当前code的版本,这里又会涉及到代理问题,所以删除了不影响。解压model_best.pth.tar,模型现在加载这个model_best.pth测试即可。代码目录结构如下(接下来用的数据集是aeroscapes,所以要改一些数据集加载的代码)原创 2024-07-16 14:08:17 · 516 阅读 · 0 评论 -
Deeplabv3+训练aeroscapes
修改train.py中的num_classes为12,其他都没动即可训练。,可以直接gitclone也可以下载zip然后解压。将aeroscape数据集改名为VOC2007。predict.py十分详细的中文注释,一键运行。然后变一下结构放到VOCdevkit中,如图。原创 2024-07-16 14:19:12 · 406 阅读 · 3 评论 -
训练自己的SETR和VIT模型
因为最近在发论文需要对之前的模型复现并记录完整的数据,结果没有找到一个完整的代码可以让SETR在torch框架中训练,有的是缺少dataloader,有的是缺少train.py,有的是只有一个网络结构代码。所以我将SETR和VIT的结构整合在了一起,并且加入了dataloader,训练,预测,评估每个类别的iou、recall等等参数的功能。代码结构如下(目前,持续更新中。。。。。原创 2024-07-18 11:25:17 · 997 阅读 · 0 评论 -
Autofocusformer的空间聚类用在局部注意力有参考价值吗?
你想知道对应CVPR 2023论文(autofocusformer)的代码是什么逻辑吗原创 2024-01-23 16:46:55 · 1240 阅读 · 0 评论 -
CVPR 2023 autofocusformer核心部分翻译
与此形成对比的是,对于一个无序的点集,确定3D点云中的邻域的传统方法依赖于诸如k近邻(kNN)等算法,它计算点之间的成对距离。有趣的是,许多加速kNN的算法的第一步都是在给定的点上进行k-means聚类,以减少邻域搜索的空间。因为我们可以在O(1)时间内通过简单量化它们的坐标来找到每个tokens对应的空间填充锚点,所以聚类的总体时间复杂度不超过对局部补丁中的所有tokens位置进行一次排序,与网络的时间复杂度相比可以忽略不计,因为没有涉及到特征通道。这是有利的,因为邻域是重叠的,保证了簇之间的信息交换。原创 2024-01-23 14:27:58 · 1186 阅读 · 0 评论