自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 对比学习方法(3)——BYOL

BYOL(Bootstrap Your Own Latent)是一种无监督对比学习方法,旨在通过学习增强表示的自监督学习来训练神经网络。与传统的对比学习方法(如SimCLR、MoCo等)不同,BYOL不依赖于负样本或对比的负对,而是通过一种创新的设计,利用两个网络(在线网络和目标网络)的交互来学习表示。这种设计简化了训练过程,同时避免了对大量负样本的需求。

2025-01-22 17:38:27 817

原创 LayerNorm与BatchNorm1d

LayerNorm的核心思想是在神经网络的每一层,对每个样本的所有激活值进行归一化处理。

2025-01-18 17:28:05 711

原创 对比学习方法(1)——SimCLR

SimCLR(Simple Contrastive Learning of Representations)是由Google Research提出的一种基于对比学习的无监督学习方法,特别用于学习图像的表示。它的核心思想是通过对比学习来构建有意义的特征表示,使得模型可以在没有标签数据的情况下,通过相似性学习来获得有效的特征。

2025-01-16 15:02:49 1320

原创 稀疏子空间聚类 SSC(Sparse Subspace Clustering)

在高维数据中,数据点往往并不是随机分布的,而是分布在多个低维子空间中。例如,人脸图片的集合可能分布在不同的子空间中,每个子空间对应不同的人;高光谱数据中的像素分布可以划分为不同的子空间,每个子空间对应不同的材料或地物。稀疏子空间聚类的目标是要将高维数据划分到多个低维子空间中,同时保持子空间的稀疏性。

2025-01-05 16:45:44 2000

原创 拉普拉斯矩阵

拉普拉斯矩阵是一种图论中的数学工具,用来表示图的结构关系。它在图划分、谱聚类、网络分析等领域非常重要。

2025-01-05 16:43:56 658

原创 Adam优化器

Adam(Adaptive Moment Estimation)优化器是一种基于梯度下降法的优化算法,它结合了动量法和自适应学习率的方法,通过计算梯度的一阶矩(平均值)和二阶矩(方差)来调整每个参数的学习率,从而加速训练并提高收敛性。

2025-01-05 10:48:57 1724

原创 指数移动平均(Exponential Moving Average, EMA)

指数移动平均(EMA)是一种加权平均方法,用于计算一组时间序列数据的平滑平均值。它在计算平均值时,对近期数据赋予更高的权重,而对较早的数据赋予较低的权重。相对于简单平均值,EMA 更敏感于最新的数据变化。

2025-01-03 15:39:10 2457

原创 对比学习方法(2)——MoCo,无监督动量对比学习

无监督动量对比学习(Unsupervised Momentum Contrastive Learning, 简称 MoCo) 是一种用于无监督表征学习的对比学习方法。MoCo 的目标是通过对比,学习一个,生成能够区分不同实例的有用特征表示,而不需要显式的标签信息。

2025-01-02 22:13:07 964 1

原创 生成模型---自编码器(Auto Encoder,AE)

自编码器(Autoencoder,AE)是一种,通常用于等任务。它由两部分组成:编码器(Encoder)和解码器(Decoder),并通过重建原始输入来训练网络。自编码器本质上是一种通过学习数据的来原始数据的模型。

2024-12-24 23:20:44 1132

原创 LoRA,Low-Rank Adaptation,低秩适配微调

LoRA(Low-Rank Adaptation),低秩适配,是一种微调技术,适用于预训练大模型(例如BERT、GPT等),旨在通过引入**低秩矩阵**来调整模型的权重,从而在微调过程中显著**减少计算和存储开销**。下面将详细解释LoRA的原理和如何运作,以及它与传统微调方法的区别。

2024-12-13 17:18:41 775

原创 通用视觉-语言模型 CLIP

CLIP (Contrastive Language-Image Pretraining) 是 OpenAI 提出的一个通用视觉-语言模型,通过对比学习方法在大规模图片-文本对数据集上进行预训练,旨在学习一个能够将图片和文本嵌入到共享语义空间中的模型。它能执行零样本(zero-shot)任务,比如图像分类、搜索、生成等。CLIP 的核心贡献在于让图像和文本之间的语义信息高度对齐,从而可以利用自然语言对视觉内容进行高效描述、分类和推理。

2024-12-06 22:41:15 1243

原创 【阅读笔记】MI-Zero:视觉语言模型 + 多实例学习,零样本迁移实现病理学领域的零样本分类

​在计算病理学领域,全切片图像(WSI)因其超高分辨率和复杂性,给自动化诊断技术带来了巨大的挑战。传统方法依赖精确标注的训练数据,面对标注困难、数据稀缺的小样本任务往往表现受限。CVPR 2023的一篇论文提出了一种新的框架 MI-Zero,通过结合视觉语言模型与多实例学习(MIL),实现了病理学领域的零样本(Zero-shot)分类,展现出极大的应用潜力。

2024-12-06 12:03:23 888

原创 Temperature-scaled cross-entropy loss,温度缩放的交叉熵损失

温度缩放的交叉熵损失(Temperature-scaled cross-entropy loss)通常用于 对比学习 任务中,特别是在多模态模型(如 CLIP)中,将 视觉和语言嵌入 对齐 时使用。它的作用是平衡输出概率分布的平滑程度,通过温度参数(temperature)来控制学习的难度,通常在处理大规模词汇表时非常有用。

2024-12-05 22:34:14 678

原创 Zero-shot Transfer(零样本迁移)

Zero-shot Transfer(零样本迁移)指的是一个模型在没有见过目标任务的任何标注数据的情况下,直接通过学习到的通用性知识完成该任务。这个能力依赖于模型在预训练阶段所学到的通用知识和语义关系,可以通过灵活的方式将其迁移到新的场景或任务中。

2024-11-27 22:59:59 662

原创 C3D---3D卷积提取视频的时空特征

随着多媒体内容的爆炸式增长,视频分析的重要性日益凸显。传统的2D图像处理技术虽然在空间特征提取方面表现出色,但在处理时间连续性方面却显得力不从心。来自Facebook AI Research和达特茅斯学院的研究团队提出了使用3D卷积网络(3D ConvNets)来学习视频的时空特征,这一创新方法在多个视频分析基准测试中展现了优越的性能。

2024-11-20 22:32:10 1382

原创 【阅读笔记】Transformer + 多实例学习---视频结构的全切片图像分类

近期,本研究提出了一种基于视频结构的多实例学习框架(VINO),巧妙地将WSI视为“病理学家观察的视频”,使用Transformer对WSI进行端到端的分类和区域定位。

2024-11-19 23:08:40 1016

原创 【阅读笔记】Transformer + 多实例学习——在病理图像分类中的应用

在数字病理学领域,如何有效分析全切片图像(Whole Slide Image, WSI)是一个重要的挑战。WSI 通常具有超高分辨率,并且标注数据稀缺,难以直接使用深度学习模型处理。提出了一种新颖的方法,结合多实例学习(MIL)和 Transformer 模型,利用位置编码和辅助任务,有效提升了分类性能和模型解释性。基于位置编码引导的 Transformer 多实例学习在病理学全切片图像分类中的应用。方法,将空间信息与语义信息结合,提升了模型对 WSI 图像的理解能力。

2024-11-18 23:40:13 1370 2

原创 评价指标1---准确率(Accuracy), 精确度(Precision), 召回率(Recall), F1-score

准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数是分类任务中常用的评估指标,尤其在二分类任务中。它们从不同角度衡量模型的表现,每个指标有其适用的场景。

2024-11-15 22:53:52 1119

原创 AUC评价指标及优化方法

AUC是衡量二分类模型性能的一个强大指标,尤其适用于样本。

2024-11-13 23:24:50 2616

原创 【论文精读】时间卷积网络(Temporal Convolutional Networks,TCN)

在视频中,识别和实时分割细粒度的人类行为/动作,对于机器人、监控、教育等领域至关重要。典型的方法是首先从视频帧中提取局部时空特征,然后将它们输入时间分类器中捕获高层时间模式。本文介绍了一种新的时间模型,称为时间卷积网络(Temporal Convolutional Networks, TCN),使用时间卷积来实现细粒度的动作分割或检测。编码器-解码器TCN(ED-TCN)使用池化和上采样来捕获长距离时间模式,膨胀TCN使用膨胀卷积。

2024-11-12 22:43:49 1373 1

原创 高光谱目标检测-语义多实例神经网络(1)

论文结合对比和稀疏注意力融合机制(1) 对于给定的包对,应用基于 1D-CNN 的特征提取和 LSTM 语义建模来**学习**丰富且有区别的**光谱特征**。(2) 设计了基于注意力的稀疏归一化权重计算模块,用于在正包中的,随后将其用于融合实例特征以获得袋表示。(3) 通过优化基于度量的特征对比损失来这些,这有助于学习更多的判别性特征(4) 设计了一种针对融合特征的高效。

2023-07-29 12:19:32 391 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除