- 博客(6)
- 收藏
- 关注
原创 Focal attention for long-range interactions in vision transformers文献阅读笔记
Vision Transformer(ViT)通过self-attention捕捉短期和长期视觉依赖,取得了显著成果,但在高分辨率视觉任务(如目标检测)中面临二次计算开销的挑战现有工作通过粗粒度全局注意力或细粒度局部注意力降低计算成本,但削弱了Transformer的建模能力提出,结合细粒度局部和粗粒度全局交互,通过细粒度处理近邻token和粗粒度处理远距离token,高效捕捉视觉依赖提出Focal Transformer模型,在图像分类、目标检测和语义分割任务中超越现有SOTA方法。
2025-03-18 11:37:48
1024
原创 TensorRT推理报错: pycuda._driver.LogicError: cuMemcpyDtoHAsync failed: invalid argument
pycuda._driver.LogicError: cuMemcpyDtoHAsync failed: invalid argument
2025-03-15 20:22:56
541
原创 UNetMamba文献阅读笔记
基于 U 形框架构建,跳跃连接,采用预训练的 ResT 作为编码器,MSD 作为解码器,并设计 LSM 增强局部语义信息感知。
2025-03-03 15:30:38
796
原创 Latent Diffusion Model(LDM)文献阅读笔记
为了在有限的计算资源上训练它们,LDM 先使用一个预训练好的 AutoEncoder,将图片像素转换到了维度较小的 latent space 上,而后再进行传统的扩散模型推理与优化。table3:在ImageNet数据集,LDM在类条件图像合成任务中的评估指标,包括FID、Inception Score (IS)、Precision和Recall,以及模型参数数量和计算需求。table2:MS-COCO数据集,LDM在文本到图像的合成任务的评估指标,包括FID和Inception Score (IS)
2025-02-26 18:02:11
1143
原创 配置mid70仿真环境时出现launch报错:‘str‘ object has no attribute ‘evaluate‘
如果想要详细查看报错的具体原因,就在终端输入以下代码:(就是原来的语句后面加上--debug)修改启动gazebo服务器部分的condition:(其他部分就按照原先的就行)在开头定义gazebo服务器是否已经声明的条件。这个应该是条件对象,而不是字符串。然后就可以显示出详细报错信息了。,而我有几行代码只使用了。就可以解决这个错误了。
2024-12-21 12:46:29
454
原创 ubuntu22.04安装gazebo11(ROS2 Humble)
之前安装过一次,但是安装的版本不太对,所以卸载了重新装一遍。但是卸载之后发现删不干净,后来更新软件包列表时也一直报错,所以去文件夹根目录下一个个手动删除剩下所有的gazebo相关文件……因为官方好像不支持ubuntu22.04,所以可以通过PPA和ROS2 humble来安装。
2024-12-13 20:48:26
3175
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅