- 博客(32)
- 收藏
- 关注
原创 Neighbour Consistency Guided Pseudo-Label Refinement for UnsupervisedPerson Re-Identification(解读)
基于邻域一致性引导的伪标签细化方法用于无监督行人重识别邻域一致性引导的伪标签精炼框架(NCPLR)核心思想:(1):伪标签精炼:用邻居的预测修正原始标签,精炼标签=原始聚类结果+邻居样本预测的加权组合。(2):邻域一致性正则化:防止模型重点记住噪声。用 “近邻样本应该是同一人” 的常识,修正聚类伪标签的噪声,同时用正则化防止模型过拟合噪声通过聚类算法(如DBSCAN或k临近搜索)生成伪标签,使用这些伪标签以监督方式训练深度网络。缺点:伪标签不可避免包含噪声,生成的伪标签包含错误的标注(将不同身份样本归为一类
2025-12-09 20:41:53
417
原创 Cluster Contrast for Unsupervised PersonRe-Identification
当前最先进的无监督 re-ID 方法通常使用基于词典(memory bank)的非参数 softmax 损失进行训练:它们将预计算的样本特征存储在词典中,使用聚类算法为其分配伪标签,利用某种形式的对比损失将查询样本与类簇进行比较。在簇级别存储特征向量、在簇级别计算对比损失、引入**动量更新(momentum update)**以增强序列空间中簇级特征的一致性。问:基于字典的非参数化softmax是啥意思?(1):首先softmax有啥作用?
2025-12-02 20:51:22
443
原创 Transformer
Transformer由两部分组成编码器:提取语义,把输入(文字序列、图像patch、音频片段等)转化成更抽象、更有意义的内部表示,供后续任务使用。解码器:Decoder 的任务是根据 Encoder 提供的表示 + 已生成的部分序列,逐步生成最终输出序列。获取输入句子的每一个单词的表示向量X,X由单词的Embedding(Embedding就是从原始数据提取出来的Feature)和单词位置的Embedding相加得到。
2025-11-21 16:31:00
825
原创 Resnet网络
self.in_channels = 64 # 初始输入通道数,由第一个卷积层决定# 网络的初始卷积和池化层# 定义各个卷积块# 全局平均池化和全连接层self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) # 将特征图尺寸自适应池化为 1x1# 初始化权重# 初始卷积和池化# 通过各个卷积块# 全局平均池化和分类x = torch.flatten(x, 1) # 将 1x1 的特征图展平为向量return x。
2025-11-19 18:50:18
75
原创 一种基于注意力的无监督行人重识别方法(解读)
跨摄像头下同一行人受光照、姿态等影响,实例特征差异大,导致聚类生成的伪标签存在错误标记(同类样本距离大、异类样本距离小);现有方法多仅采用单一标签平滑操作,忽略了伪标签本身噪声对中心级内存表示的影响,未充分利用不同策略的互补性。无需标签标注,遵循 “聚类阶段生成伪标签 - 训练阶段使用伪标签” 的两阶段交替训练范式,常用 DBSCAN 或 K-means 聚类生成伪标签,训练阶段通过内存特征存储与更新优化模型。从标记的源域数据集学习信息,迁移到未标记的目标域数据集,性能依赖源域数据的规模和质量。
2025-11-14 20:33:46
723
原创 基于标签互优化的领域自适应无监督行人重识别网络(解读)
第二步-> GAN 由生成器和判别器组成,核心作用是「缩小源域与目标域的风格差异(域偏移)」,生成器:将源域图像的风格转换为目标域的风格(比如源域是晴天户外图像,目标域是雨天室内图像,生成器会把源域图像 “变成” 雨天室内风格,但保留行人的核心身份特征);第三步->用「真实目标域无标签图像」+「GAN 生成的伪目标域有标签图像」,对预训练好的 ResNet 进行微调 —— 此时模型既保留了源域学到的身份识别能力,又通过 GAN 迁移的图像适应了目标域的风格,最终能在无标签的目标域中准确匹配行人。
2025-11-13 16:55:27
668
原创 融合特征分布适配与多样化生成的跨模态行人重识别方法(解读)
将可见光与红外特征投射到共同嵌入空间,通过特征解耦、正交子空间学习、对比学习等方式缩小模态差异。,更直观呈现各环节的优化逻辑?要不要我帮你整理一份。
2025-11-11 20:20:27
544
原创 基于局部特征增强和跨视图近邻聚类的无监督行人重识别
传统无监督行人重识别方法主要分为:(1):基于特征学习的方法(Feature-based Methods)--->依赖于手工特征,而非深度学习模型(2):基于聚类的深度学习方法(Clustering-based Methods)--->目前最主流的无监督ReID思路:使用预训练模型提取特征,对特征进行聚类,将聚类视为伪标签,用于重新训练模型,迭代进行聚类和训练,主簿提升特征判别性。(3):基于生成式模型的方法--->利用生成对抗网络(GAN)或风格迁移来增强无监督训练。
2025-10-31 08:18:46
932
原创 基于交替中心聚类的无监督跨模态行人重识别(结合学习了聚类和对比学习后新的理解)
过程:“聚类” 为相似样本分配伪标签,再以伪标签为监督信号训练模型;每轮训练后模型特征的判别性提升,会反过来优化下一轮聚类的伪标签质量,形成 “聚类算法:K-均值聚类(K-Means),DBSCAN(基于密度的聚类)聚类核心思想:让相似的数据点聚在一起,不相似的数据点分开。
2025-10-27 19:32:34
196
原创 无监督训练模型(聚类)
是通过欧氏距离之际计算样本“围绕某个中心的球形区域”,每个簇对应一个聚类中心,样本被分配到距离最近的中心所在簇,最终优化 “簇内样本到中心的距离平方和最小” 的目标函数。距离的作用:距离直接决定样本的簇归属(靠近那个中心就属于哪个簇),簇的中心形状完全由中心位置和距离度量决定(默认是球形)本质:簇的形成是 “自上而下” 的 —— 先预设 K 个中心,再通过迭代调整中心位置,强制将所有样本划分到 K 个簇中。(2):DBSCAN簇的定义:
2025-10-21 11:04:00
857
原创 无监督训练中的聚类算法和对比学习
在对比学习中,模型并不会直接学习“这是一张人脸”或“这是一辆车”的标签,而是学习到图像之间的相似性与区别,学习如何将图像转换成一个。
2025-10-16 16:43:45
849
原创 无监督训练模型(对比学习)
(1):首先明确学习率是给优化器用的输入数据 → 模型计算预测结果 → 计算损失(如NT-Xent Loss) → 反向传播求梯度 → 优化器用梯度更新参数而。
2025-10-14 11:02:12
821
原创 基于交替中心聚类的无监督跨模态行人重识别 解读
问:跨模态和跨域的区别?跨模态:处理的信息转换和融合 例如图像和文本、语音和文本之间的关系。跨域:处理迁移或适应模型的能力,解决不同数据分布或任务之间的差异。
2025-10-10 20:45:38
849
原创 Self-Similarity Grouping (SSG) — ICCV 2019
行人重识别(re-ID)中的领域自适应一直是一项具有挑战性的任务。本研究旨在探索如何利用目标领域样本中存在的相似自然特征,以无监督方式实现行人重识别模型的训练。具体而言,我们提出了一种自相似性分组(Self-similarity Grouping, SSG)方法,该方法利用未标记样本(从全局身体到局部部位)的潜在相似性,自动从不同视角构建多个聚类。随后,我们为这些独立的聚类分配标签,将其作为伪身份用于监督训练过程。我们反复交替执行这种分组与训练过程,直至模型趋于稳定。
2025-10-10 16:25:54
779
原创 行人重识别研究综述(再读)
行人重识别任务可分解为特征提取+特征匹配行人重识别任务的关键:提取更具判别性的特征表示和设计更优秀的度量学习损失函数成为行人重识别任务的关键。随着的提出,行人图像的特征提取方法也得到很大改进,提高了模型的鲁棒性和泛化能力.GAN 在行人重识别里主要用来和解决跨摄像头的“异构问题”,比如把一个摄像头的风格转换到另一个摄像头的风格(CamStyle)。这样模型就能学到与摄像头无关的特征,提高泛化能力。通过 GAN 合成新的行人图像,缓解 Re-ID 数据量不足的问题。
2025-09-26 20:45:16
232
原创 Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)
主要是对输入图片进行的操作---->即对图片进行特征提取的操作划分人体的局部区域,来进行深度学习更好的提取特征,划分区域进行提取特征再进行聚合①:比人体姿态估计的优势,人体姿态估计数据集与行人重识别任务的数据集存在较大差异。②:本文采用均匀划分将特征图划分为水平条带----->再通过RPP来细化分[注]:RPP对均匀划分的细化和自适应优化,初始仍然分条带(stripes),然后通过一个学习到的 soft attention 机制,给每个像素分配一个“属于哪个条带的概率”,即重新分配特则会那个,使得同一条带尽
2025-09-26 16:00:27
288
原创 vue+Fastapi+milvus数据库
image_to_vec 对单个图片进行提取特征向量,因为milvus数据库需要输入的是特征向量,数据库里面存的也是特征向量,提取完成图片的单个特征向量之后进入到milvus数据库进行相似度检索,找到前k张最相似的图片。定义了返回的格式,严格遵守最上面定义的返回给前端数据的格式。定义好了前端发送请求时的格式和返回给前端的时候的数据格式。该命令行可以得到本电脑的ip地址 可用于其他进行访问。通过这个启动可使得在局域网内的所有电脑都可进行访问。⑤:将输出的相似度转化成百分数的形式。搜索前几张相似的向量。
2025-09-26 15:13:02
302
原创 FastAPI如何连接前端数据
后端在routers/image.py中接受到DELETE /images/{id} 请求。前端展示的图片实际上是一个数组images,保存了从后端传递来的JSON数据。调用接口api---->deleteImages(id)点击删除按钮触发removeImage(img.id)而真正对数据进行处理 负责真正的数据库操作的是。
2025-09-18 09:28:53
270
原创 卷积神经网络
卷积神经网络(Convolutional Neural Network, CNN)是一类专门处理具有网格结构数据(如图像、语音、视频)的深度学习模型。所以卷积核就对应输入的数据对应的抽像特征---->所以要识别整个老鼠 需要多个卷积核。子矩阵称之为卷积核---->卷积核对应数据不同角度的特征值。卷积核---->卷积核对应数据不同角度的特征值(例如)输入层---->卷积层----->输出。128×128×3---->图像像素。①:卷积运算(卷积层处理矩阵数据)卷积核的深度对应 3。
2025-09-02 20:25:51
261
原创 前馈神经网络和反向传播
训练神经网络的目标是最小化损失函数 𝐿,反向传播可以高效地算出参数(权重、偏置)的梯度,从而用梯度下降等优化方法更新参数。前馈神经网络常称为多层感知器(MLP) 不存在反馈(不存在反向传播)单个训练样本如何修改权重和参数。
2025-09-02 19:26:18
203
原创 机器学习初学习
训练集----->学习算法---->生成对应的函数(称之为模型)------>生成的新的函数接受新的输入的x的值(输入特征)并且进行预测输出一个估计值或者预测值(预测值y-hat ) 而y代表训练集中的真实值 函数: f(x)=wx+b。代价函数: 通过预测值y-hat和y的差值的平方—>误差 来寻找模型(即函数)最佳的w和b的值 尽可能的将j的值降低到最小。的数值型输出 𝑦 (从无数的数字中预测一个,即输出的类型可能有许多)目标:根据数据的相似性,把样本自动划分为若干簇(cluster)。
2025-09-01 16:47:13
434
原创 机器学习(一)
定义:①:人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。②:我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个新的西瓜是否是好瓜。可以得知我们预测的是:西瓜是好是坏,即好瓜与差瓜两种,是离散值。同样地,也有通过历年的人口数据,来预测未来的人口数量,人口数量则是连续值。预测值为离散值的问题为:分类(classification)。预测值为连续值的问题为:回归(regr...
2022-01-10 15:19:16
170
原创 Opencv笔记整理(三)
shi-tomas检点检测原理:实现:在OpenCV中实现Shi-Tomasi角点检测使用API:corners = cv2.goodFeaturesToTrack ( image,maxcorners,qualityLevel,minDistance )参数︰. lmage:输入灰度图像. maxCorners:获取角点数的数目。. qualityLevel:该参数指出最低可接受的角点质量水平,在0-1之间。. minDistance:角点之间最小的欧式距离,避免得到相邻特征
2022-01-07 21:32:54
1968
原创 Opencv笔记(二)
Harris和Shi-Tomas算法Harris角点检测:原理:14实现:在OpenCV中实现Hariis检测使用的API是:dst=cv.cornerHarris(src, blockSize, ksize,k)参数︰. img:数据类型为float32的输入图像。. blockSize:角点检测中要考虑的邻域大小。. ksize: sobel求导使用的核大小· k︰角点检测方程中的自由参数,取值参数为[0.04,0.06].结果:代码:import cv2
2022-01-07 21:16:22
1677
原创 opencv笔记整理
霍夫圆检测:1.原理圆的表示式是:(x - a)^2+(y - b)^3=r其中a和b表示圆心坐标,r表示圆半径,因此标准的霍夫圆检测就是在这三个参数组成的三维空间累加器上进行圆形检测,此时效率就会很低,所以OpenCV中使用霍夫梯度法进行圆形的检测。霍夫梯度法将霍夫圆检测范围两个阶段,第一阶段检测圆心,第二阶段利用圆心推导出圆半径。。圆心检测的原理︰圆心是圆周法线的交汇处,设置一个阈值,在某点的相交的直线的条数大于这个阈值就认为该交汇点为圆心。。圆半径确定原理︰圆心到圆周上的距离(半径
2022-01-06 19:02:19
2181
原创 Opencv整理笔记加算法整理
createTrackbar()函数用法总结(C++版)create Trackbar函数可用于创建一个可以调整数值的滑动条。第一步,功能说明:用途就是通过改变滑动条的位置来改变函数里面变量的值,比如我们需要把程序里面的变量i改变为10,20,30就可以分别滑到10,20,30,可以实时的显示i=10,20,30时的效果图。下面我们通过改变变量i的值,实时的把i的值输出到屏幕。API详解:原型:int createTrackbar(const string& trackbarna..
2021-11-07 23:02:34
2157
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅