
论文阅读
文章平均质量分 83
CV领域优秀论文
每天都在深度学习
实践出真知!
展开
-
论文阅读《多模态结合Mamba模型》
针对目标检测多模态融合领域,提出了一项基于Mamba与YOLO结合的目标检测模型框架(基于Mamba的backbone和YOLOv8的neck以及head结合)。DSSF模块进一步减少模态差异,通过双方向门控注意力在隐藏状态空间中进行特征融合,以增强融合特征的表示一致性(简而言之就是深层特征融合)。第二点:文章的创新点主要为在借鉴YOLO的Backbone结构,设计了一种新的基于Mamba的多模态数据融合结构。从实验结果上来看,确实取得了不错的检测精度,但多模态检测模型的参数量可能也是一个因素。原创 2024-06-01 11:02:20 · 2082 阅读 · 4 评论 -
[论文阅读]CVPR2024 《Rewrite the Stars》
传统的深度学习学习范式以混合线性投影(即卷积和线性层)和非线性激活构成。在做将输入特征从低维到高维映射时的解决办法为:增加网络的深度(其实也就是提高通道数),这样带来的直接影响就是大大增加了模型的复杂度、计算量(这是一种显示高维特征映射的方法);那对于这个问题呢,在Transformer中也提出了一种高维特征映射的方法:自注意力机制最显著的特征是将特征映射到不同的空间,然后通过点积运算构建一个注意力矩阵。然而,这种实现并不高效,随着标记数量的增加,注意力复杂度呈二次增长。原创 2024-05-25 10:45:20 · 4470 阅读 · 0 评论 -
[论文阅读]FER-YOLO-Mamba
此外,Ma等人提出了U-Mamba模型,通过结合U-Net架构和Mamba模型的优势,有效提升了生物医学图像分割的性能。从结果上来看,新的模型在检测效果少似乎比V7和V8都高了很多,但是其实baseline是YOLOX,仔细看的话发现再大的数据集上相比于YOLOX涨了1.91个点,在小数据集上相比于YOLOX涨了2.65个点。(但是最后的结果却是很好看,比V7,V8高了好多)这篇文章首创性的将Mamba融入到了YOLO架构中,构建了一个高效的YOLO-Mamba框架,并且在FER任务中达到了很好的效果。原创 2024-05-19 09:00:36 · 1499 阅读 · 0 评论 -
Transformer学习笔记
在实际中,Self-Attention 接收的是输入(单词的表示向量 x组成的矩阵 X) 或者上一个 Encoder block 的输出。将 Encoder 输出的编码信息矩阵 C传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~ i 翻译下一个单词 i+1,如下图所示。QKT 之后,使用 Softmax 计算每一个单词对于其他单词的 attention 系数,公式中的 Softmax 是对矩阵的每一行进行 Softmax,即每一行的和都变为 1。表示单词之间的关系程度。原创 2024-05-09 10:27:00 · 617 阅读 · 0 评论