- 博客(16)
- 收藏
- 关注
原创 多模态协同学习框架 DMCL
提取文本特征为T = [T1, T2, T3, T4, T5] ,图片特征为 I 将其特征融合为K = [I, T1, T2, T3, T4, T5],K 表示样本融合后的多模态特征。将图像与文本特征进行整合,值得注意的是,多模态融合组件由多个自注意力层组成,以完成多模态特征的融合。早期传统的reid的工作方式,因无法在大规模数据集上产生有竞争力的结果,所以本文中为相关工作,并未成为本文方法。四.identification loss and triplet loss function(损失函数)
2024-08-25 13:42:09
483
原创 Bag of Tricks and A Strong Baseline for Deep Person Re-identification(论文阅读笔记)(2019CVPR)
本文是CVPR2019报告的文章,主要是将对reid有效的方法和技巧进行收集和评价。该模型仅使用了全局特征。
2024-06-04 00:49:34
977
1
原创 ResNet 学习
简单来说,残差块是构成残差层的基本单元,而残差层则是由多个残差块组成的。在ResNet中,通常会堆叠多个残差层来构建深度模型。
2024-05-25 21:12:36
393
1
原创 nn.Conv2d(卷积)的简易理解
是一个Parameter对象,它是PyTorch中的一种特殊的Tensor,用于存储模型的可学习参数。是创建一个新的Tensor,它的形状是。是输出特征图的通道数,也就是卷积核的数量。是每个卷积核的输入通道数。如果使用了分组卷积(groups> 1),那么每个卷积核的输入通道数就会减少。是卷积核的大小,可以是一个整数或者一个二元组。所以,这行代码的意思是创建一个形状为的Tensor,并将其作为卷积层的权重参数。这个Tensor中的每一个元素都是一个可学习的参数,会在训练过程中被优化。Tensor。
2024-05-25 01:39:25
1250
原创 Person Re-identification的调研-第一周
度量学习(Metric Learning)是一种机器学习方法,寻找最优映射f(x),使相同行人的两个图片D(x,y)尽可能小,不同的人尽可能大。其目标是学习数据点之间的距离度量(度量损失),使得在这个度量下,相似的数据点距离更近,不相似的数据点距离更远。不直接考虑图片间的相似度,而是把任务看作分类问题(Classification/Identification)和验证问题(verification)//类似于二分类//,所以就会有分类损失和验证损失(输入一对图片,让其判断是否为一人)
2024-05-14 23:22:17
809
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅