乐事layz-优快云博客

原创信息熵，KL散度，JS散度与Wasserstein距离----GAN到WGAN的进化之路

因为生成器的初始参数是随机初始化的，所以它什么都没有学习到，输入一系列采样得到的向量给它，它的输出都是些随机、混乱的图片，然后我们根据真实的数据送入判别器与生成的数据做对比，我们把真正的图片标 1，生成器产生出来的图片都标 0。网络框架如下图所示。其实到这里我们不难看出，判别器的训练目标是看到真实数据就给它比较高的分数，看到生成的数据就给它比较低的分数，我们可以把它当做是一个优化问题，具体来说，我们要训练一个判别器，其可以最大化一个目标函数，当然如果我们最小化它就可以称它为。生成的事物是真实的还是生成的；

2024-07-16 18:24:47 1587 7

原创大模型的范化能力强是什么原因

例如：OpenAI 的研究表明，GPT-3 相较于 GPT-2，通过扩大数据和参数规模，显著提升了零样本学习（Zero-shot Learning）的能力。例如：BERT 的 MLM 任务训练模型预测被掩盖的单词，这种任务不可知的目标函数使其能够在广泛的 NLP 任务中泛化良好。这种跨模态的对齐表示能够捕捉更通用的特征。例如：CLIP 模型通过对图像和文本的大规模对比学习，其多模态表示能力源于其网络的高容量和复杂性。模型倾向于学习跨领域、跨模态的通用表示，这种能力直接增强了模型在未见任务和领域上的表现。

2025-01-14 21:19:57 487

原创在将文本转化为token的过程中是不是都要构建词表

所以说，将文本转化为token不一定都要构建词表，不过构建词表这种传统方式在很多特定场景和基础的自然语言处理任务中依然有着广泛的应用，而借助预训练模型不构建词表的做法在当下也越来越流行且便捷高效。

2025-01-03 10:03:13 405

原创 text2token的方法--BEP与word embedding

BPE 是一种子词级别分词算法，常用于自然语言处理中（如机器翻译和语言模型）。它通过逐步合并高频符号对来构造子词词汇表，解决了传统分词方法面临的词汇稀疏性问题，同时提升了模型的泛化能力。

2024-12-30 10:53:52 170

原创 transformer中输入形状随着每层处理所发生的变化

【代码】transformer中输入形状随着每层处理所发生的变化。

2024-12-24 14:17:02 396

原创领域泛化与领域自适应

领域泛化（Domain Generalization）和领域适应（Domain Adaptation）是机器学习领域中处理不同数据分布场景下模型训练与应用的两种策略，它们的区别主要体现在以下几个方面：

2024-12-06 10:41:07 1133

原创分布式训练之数据并行与模型并行

• 划分方式：模型切分，例如，将不同层分配到不同设备，或者切分张量计算（如 Transformer 的多头注意力部分分布到不同设备）。• 方法：对数据并行和模型并行的策略进行分层设计，比如在多个节点间采用数据并行，而在节点内的多个 GPU 间采用模型并行。• 数据从 GPU 1 开始向前传播，经过每一层的计算，再反向传播梯度，更新每个设备上的部分模型参数。• 定义：将模型本身划分为多个部分，不同的设备各负责一部分模型的前向和后向计算。• 优化方向：减少中间激活的通信频率或数据量，使用更高效的硬件通信通道。

2024-12-01 16:13:53 365

原创分布式训练中的一些问题

例如，假设原本在单个GPU上使用学习率为lr进行训练，当使用N个GPU并行时，将学习率调整为N*lr，这样可以保持每个GPU上的训练动态与单个GPU时相似，同时利用多GPU加速训练过程。而将学习率根据并行GPU的数量倍增，可以在一定程度上保持训练动态的一致性，使得模型在不同数量的GPU上都能以相对合理的速度进行训练，并且能够更好地利用多GPU的计算资源。如果不根据GPU数量调整学习率，当增加GPU数量（即增大批量大小）时，学习率相对来说就会变得过小，导致训练过程过于缓慢，甚至可能无法收敛到较好的结果。

2024-11-29 11:20:06 265

原创查看模型冻结的状态

在 PyTorch 中，要查看模型中各层是否被冻结（即参数的 requires_grad 属性是否为 False），可以使用以下方法。使用 model.parameters() 遍历模型的所有参数，并检查每个参数的 requires_grad 属性。如果你想快速切换冻结状态，可以使用 requires_grad_()。如果只对某些特定层感兴趣，可以直接访问这些层的参数。统计模型中冻结的层数和未冻结的层数。

2024-11-24 20:50:47 391

原创将模型中某层抽取出来，冻结，删除，插入，更改

对 timm 模型中的层进行操作（抽取、冻结、删除、插入、更改），可以通过 PyTorch 提供的 torch.nn.Module 工具实现。如果需要删除多个模块，可以使用 torch.nn.Sequential 重构模型。为了灵活地操作模型，可以创建一个新模型类，定义需要保留、删除或修改的部分。在模型中插入新的层，最常见的是在分类头或特征提取部分添加层。直接替换某层为新的层，例如改变层的结构或参数。直接访问模型的某个层并将其保存为单独的模块。将模型中的某个层删除，可以通过以下方式实现。

2024-11-24 20:14:37 466

原创 timm库加载的模型可视化

summary(model, input_size=(3, 224, 224)) # 假设输入是 3x224x224 的图像这会输出模型每一层的输入/输出形状和参数数量。使用 torchviz 可视化模型图torchviz 可以生成模型的计算图。安装 torchviz生成计算图# 加载模型# 模拟输入# 获取模型的计算图# 保存为 PDF 或显示dot.render("model_visualization", format="pdf") # 保存为 PDF 文件。

2024-11-24 20:02:30 530

原创使用timm库加载模型与模型权重

在使用 timm 库加载预训练模型权重时，可以通过多种方式加载模型并指定权重。timm 提供了大量预训练模型，可以直接通过 pretrained=True 参数加载模型及其对应的权重。

2024-11-24 19:47:18 474

原创 VIT中的cls token是怎么起作用的

在 Vision Transformer (ViT) 中，CLS token（分类 token）是一个特殊的标记，主要用于在模型的分类任务中提取全局图像的特征表示。• 在最后一层 Transformer 中，CLS token 的特征向量被提取出来，作为整个输入图像的全局表征。• 在非分类任务中，CLS token 的概念也可以扩展为其他全局任务，例如图像生成或回归任务中的全局控制标记。• 在 ViT 中，CLS token 的目的是为图像输入提供一个全局的代表符号。

2024-11-22 16:46:41 2314

原创 OOD与zero-shot

数据情况：OOD主要关注测试数据与训练数据的分布差异，数据本身类别可能相同或不同，但分布不同；而Zero Shot强调模型处理从未见过的类别样本，重点在于类别层面的新颖性。例如，OOD可能是在同一类图像（如正常图像）中遇到不同分布的数据（如不同光照条件下的正常图像），Zero Shot则是面对全新的类别（如从未见过的动物种类）。模型处理方式：OOD处理方法主要围绕检测分布差异并采取相应措施（如调整模型决策阈值、进行数据过滤等）；

2024-11-21 09:20:02 554

原创最大池化与平均池化分别有什么作用

最大池化（Max Pooling）的作用平均池化（Average Pooling）的作用

2024-11-19 08:40:34 698

原创大模型微调过程中加入token的作用

• 在增量学习或少样本学习中，新增的 token 可以作为少量新类的特征表示，让模型在微调过程中逐步学习到新类别的信息。这种方法在小样本场景下尤其有效，因为额外的 token 可以引导模型的表示更靠近新类别的特征空间，从而减少样本不足的影响。• 上下文增强：通过添加带有特定含义的 token，如指示情感、语言或领域等，可以帮助模型更好地理解输入的上下文，生成更符合要求的输出。不同任务可以对应不同的 task token，以帮助模型在不同任务间切换或引导模型关注特定任务相关的信息。调节生成内容的风格或格式。

2024-11-05 10:07:57 428

原创为什么说：由于 RNNs 需要处理序列数据，它们会将前一步的输出传递到下一步，这就意味着网络的参数必须在多个时间步（或序列的多个位置）上进行反向传播。

RNNs 需要处理序列数据，意味着它们在每个时间步上都依赖于之前的时间步的输出。这种时间上的依赖性在训练过程中需要通过时间反向传播（BPTT）来更新网络的参数，因此梯度需要从最后一个时间步逐步传播回最早的时间步。

2024-10-25 17:40:05 486

原创卷积神经网络（CNNs）在处理光谱特征的序列属性时表现不佳

CNNs 的卷积操作具有平移不变性，这意味着它们关注的是特征是否存在，而不是特征在输入数据中的具体位置。这种特性在图像处理中有优势，但对于光谱签名，序列中的顺序非常重要，不同波段之间的顺序可能包含关键的语义信息。光谱签名的数据通常涉及多个波段，每个波段的数值与其他波段之间存在复杂的全局依赖关系。为了解决这些问题，通常会采用像 Transformer、RNN（循环神经网络）或专门设计的光谱网络，这些网络能够更好地处理序列数据，尤其是可以捕捉到长距离依赖和序列的全局结构信息。

2024-10-25 07:57:59 557

原创自适应权重

自适应权重是一种通过模型内部动态调整权重的技术，使得模型可以更灵活地适应输入数据、任务需求或模型状态的变化。这种技术在多任务学习、优化器、注意力机制等多个领域中得到了广泛应用，显著提升了模型的性能和效率。

2024-10-18 15:10:27 1571

原创预训练模型通过 prompt（提示）生成的“软标签”是什么

软标签（Soft Label）通常指的是模型预测结果中输出的概率分布。例如，如果一个分类任务中有3个类别，模型的输出可能是：这意味着模型认为输入数据属于类别1的概率是70%，类别2是20%，类别3是10%。这与硬标签（Hard Label）不同，硬标签只会给出一个确定的类别，如[1, 0, 0]，即模型认为输入属于类别1，没有其他可能性。预训练模型通过 prompt 生成的软标签是模型输出的概率分布，而不是一个确定的分类结果。

2024-10-18 15:00:19 794

原创如何在冻结的MSA内部更改q,k,v的形状

在冻结多头自注意力（MSA）层的参数的情况下，若希望更改q（查询）、k（键）、v（值）的形状，可以通过修改这些矩阵的输出维度或重新排列它们的维度，而不需要改变 MSA 内部的参数或对它们进行反向传播更新。

2024-10-16 15:37:22 208

原创如何修改冻结的预训练模型的网络结构

在冻结预训练模型的部分参数或层之后，仍可以对模型的结构进行修改，以便更好地适应下游任务。

2024-10-14 19:57:59 399

原创预训练模型的使用方法

加载预训练权重。配置下游任务需求，如冻结特定层。进行微调训练或直接用于推理。

2024-10-14 19:51:26 703

原创 prompt learning

prompt learning

2024-10-14 15:34:39 458

原创读懂Embedding

读懂Embedding

2024-10-14 15:24:34 415

原创在深度学习训练过程中模型为什么会学习到捷径

模型学习到捷径的根本原因是它在优化过程中优先选择了最容易最短路径的特征，而这些特征可能并不代表任务的本质。通过改善数据集、引入正则化和设计更合理的模型结构，可以有效减少模型依赖捷径，进而提高模型的泛化能力。

2024-09-27 14:49:28 812

原创 MoCo与其他的对比学习

MoCo 中的字典是一个存储负样本表示的FIFO 队列，它通过结合动量编码器生成的 key 和队列化机制，确保负样本的数量充足、表示一致并具有多样性。减少对大 batch size 的依赖：通过跨 batch 存储负样本，MoCo 可以在小 batch size 下进行有效训练。保持负样本表示一致性：通过动量编码器的缓慢更新，确保字典中的负样本表示在训练中保持相对一致。提高负样本多样性：字典队列中的 key 是动态更新的，确保了负样本的多样性。

2024-09-26 20:31:47 927

原创 NCEloss与InfoNCEloss的区别

NCE Loss（Noise Contrastive Estimation Loss）和是两种常用的损失函数，主要应用在对比学习和自监督学习任务中。它们的区别在于应用场景和具体实现细节。

2024-09-26 18:15:44 1167

原创对比学习中，什么是样本的一致性，为什么要保证样本的一致性？

在对比学习（contrastive learning）中，指的是在不同的增强（transformation）下，模型仍然能够将同一个原始样本的不同变体视为同一个类别或概念。例如，对于一张图片，无论是经过旋转、裁剪、缩放还是颜色变换后，模型应该学会识别这些不同的版本都属于同一个样本（或标签），保持它们之间的特征一致性。

2024-09-26 14:32:40 478

原创对比学习训练是如何进行的

对比学习（Contrastive Learning）是一种自监督学习的方法，旨在通过拉近相似样本的表示、拉远不相似样本的表示来学习特征表示。在训练过程中，模型并不依赖标签，而是通过样本之间的相似性进行学习。

2024-09-25 12:32:51 984

原创残差块的depth degradation effect

在于通过跳跃连接和恒等映射，缓解了深层网络中的梯度消失和性能退化问题。它确保随着网络深度的增加，模型能够稳定地学习更复杂的特征，而不会因为深度过大导致训练误差或测试误差增大。因此，残差网络成为了深度学习中训练非常深层神经网络的关键技术。通过引入残差块，网络可以在大幅度增加深度的情况下，继续保持较好的训练效果和模型性能。

2024-09-23 17:14:10 677

原创半监督学习---伪标签

*伪标签（Pseudo Labels）**是半监督学习（semi-supervised learning）中的一种常用策略，通常用于将无标签数据转化为有标签数据，以此来提升模型的性能。伪标签通过使用一个初步训练的模型（通常是基于部分有标签数据训练的模型）对无标签数据进行预测，并将这些预测标签作为该无标签数据的“伪标签”，从而让无标签数据参与模型的进一步训练。

2024-09-23 15:49:11 1221

原创 Fast-RCNN模型框架在经过全连接层后再如何处理

对每个候选区域进行分类，输出该区域属于某个预定义类别的概率分布，包括背景类。分类分支的输出维度为。，用于对候选区域的边界框进行微调（即进一步修正区域的精确位置）。该分支输出的是每个类别对应的。这两个输出（分类和边界框回归）共同完成对每个候选区域的分类和边界框定位，整个过程相对高效。（x, y, w, h），用于调整边界框的坐标和尺寸。同时，全连接层的特征向量还被送入。全连接层输出的特征向量被送入。是类别的数量，额外的。

2024-09-23 10:46:21 262

原创 nn.Embedding

在这个代码片段中，类继承了类，并在__init__方法中通过调用来初始化父类。由于没有定义新的方法，默认情况下它会使用的行为来提供返回值。

2024-09-22 20:15:57 215

原创 nn.Embedding

在这个代码片段中，类继承了类，并在__init__方法中通过调用来初始化父类。由于没有定义新的方法，默认情况下它会使用的行为来提供返回值。

2024-09-22 20:15:05 475

原创自注意力与多头自注意力的区别

单头 vs. 多头：自注意力机制是单一的，模型只能从一个角度计算注意力，而多头自注意力机制通过多个独立的注意力头进行计算，使得模型能够捕捉更丰富的特征。子空间处理：多头机制将输入划分为多个低维子空间，使得每个注意力头可以专注于输入的不同部分，从而提升模型对不同特征的表达能力。计算复杂度：虽然多头自注意力的计算量较大，但通过并行计算多个注意力头，提升了模型的表现力，而不会显著增加计算开销。

2024-09-20 18:45:36 998

原创大尺寸卷积核的优缺点

尤其是在数据集较小或者数据多样性不足的情况下，使用大卷积核的模型可能更容易适应训练数据，但在测试数据上表现不佳。大尺寸卷积核能够捕获更大的上下文信息，拥有更广的感受野。它可以一次性处理更大区域的特征信息，尤其在处理复杂的视觉任务时（如场景理解、目标检测等），可以更好地捕获全局信息。卷积操作的计算量随着卷积核尺寸的平方增长，使用较大的卷积核会显著增加模型的计算开销和内存消耗，尤其在深层网络中影响更大。在不增加网络深度的情况下，通过大卷积核一次性提取更多全局信息，减少对堆叠更多小卷积核的需求。

2024-09-19 14:41:52 872

原创多模态大模型中的图片文本对齐

使用不同的编码器分别提取文本和图片的特征。将文本和图片特征投射到共同的语义空间中。通过对比学习损失函数使得相关的文本和图片对在共同空间中距离更近，而不相关的对距离更远。通过大规模数据集进行预训练，模型能够学习如何在不同模态间进行对齐。对齐的实现对于多模态模型的性能至关重要，特别是在视觉-语言任务中的应用，例如图像生成、描述生成、图像搜索等。

2024-09-13 15:48:12 3920 1

原创模型训练与推理的过程

模型训练和推理之间的联系在于，训练是模型学习的过程，而推理是模型应用的过程。两者在整个机器学习工作流中相辅相成。

2024-09-13 14:55:37 1095

原创高光谱图像处理，使其适用于深度学习任务

高光谱图像的处理涉及从降维、归一化等基础步骤，到图像块切割、数据增强等操作，最终通过深度学习模型进行检测。选择适合的模型架构、输入格式和后处理方法可以有效提高高光谱图像在深度学习任务中的表现。

2024-09-10 16:41:19 2345 2

空空如也

空空如也