Maker~-优快云博客

原创 30、论文阅读：基于小波的傅里叶信息交互与频率扩散调整的水下图像恢复

水下图像受到复杂多样的退化，不可避免地影响水下视觉任务的有效性。然而，大多数方法主要是在图像的原始像素空间中运行，这限制了对水下图像频率特性的探索，导致深度模型在产生高质量图像时没有充分利用其表征能力。在本文中，我们介绍了一种新的水下图像增强(UIE)框架，命名为WF-Diff，旨在充分利用频域信息和扩散模型的特性。WF-Diff由两个可分离的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FR-DAM)。

2025-01-06 18:03:22 1271 2

原创 30、PUGAN

由于水体介质引起的光吸收和散射，水下图像通常面临一些退化问题，例如低对比度、颜色失真和细节模糊，这加大了后续水下理解任务的难度。因此，如何获得清晰且视觉上令人满意的图像已成为人们普遍关注的课题，水下图像增强（UIE）任务也应运而生。在现有的UIE方法中，基于生成对抗网络（GAN）的方法在视觉美感上表现出色，而基于物理模型的方法在场景适应性上更具优势。为结合上述两类模型的优点，我们在本文中提出了一种基于物理模型引导的GAN模型用于UIE，称为PUGAN。整个网络采用GAN架构。

2025-01-02 19:57:20 218

原创 28、论文阅读：基于像素分布重映射和多先验Retinex变分模型的水下图像增强

高质量的水下成像对水下探索至关重要。然而，由于海水的颗粒散射和光吸收，图像清晰度显著降低。为了解决这些问题，我们提出了一种结合像素分布重映射（PDR）和多优先级Retinex变分模型的新型水下图像增强（UIE）方法。我们设计了一种针对严重衰减通道的预补偿方法，有效防止了颜色校正过程中产生新的颜色伪影。通过结合通道间的耦合关系，我们计算了一个限制因子，用于重映射像素分布曲线以提高图像对比度。

2024-12-19 14:41:22 1184 1

原创 23、论文阅读：HAAM-GAN：基于多分辨率特征学习的层次注意力聚合GAN水下图像增强

随着人类对海洋的探索和资源开发的不断深入，海事行业已成为一个热门领域。然而，由于海洋的广阔和环境的复杂性，海上交通流预测（Cohen and Klein, 2022）和自主作业（Gao et al., 2023）仍然是海事行业学者关注的焦点。在海洋活动中，光学成像系统常被用于记录水下元素。海事工作的效率主要取决于所捕获图像的质量；然而，退化的水下场景可能会阻碍高级视觉任务的性能和信心。

2024-11-19 17:13:24 1456 1

原创 18、论文阅读：AOD-Net：一体化除雾网络

该论文提出了一种基于卷积神经网络（CNN）的图像去雾模型，称为 All-in-One 去雾网络（AOD-Net）。该模型基于重构的大气散射模型进行设计，不像以往的模型那样分别估计透射矩阵和大气光，而是通过轻量级的 CNN 直接生成干净图像。这种新颖的端到端设计使 AOD-Net易于嵌入到其他深度模型中，例如 Faster R-CNN，从而提升雾霾图像上的高层次任务性能。实验结果表明，在合成和真实雾霾图像数据集上，AOD-Net 在 PSNR、SSIM 和主观视觉质量方面均优于现有的最先进方法。

2024-11-06 17:34:07 1774 1

原创 17、论文阅读：VMamba：视觉状态空间模型

视觉表示学习是计算机视觉中的一个基础研究领域，随着深度学习的兴起，该领域取得了显著进展。为了表示视觉数据中的复杂模式，提出了两类主要的主干网络，即卷积神经网络 (CNN)和视觉 Transformer (ViTs)，并在多种视觉任务中得到了广泛应用。相比于 CNN，ViTs 由于融合了自注意力机制，通常在大规模数据上的学习能力更强。然而，自注意力机制对于标记数的二次复杂度在处理具有大空间分辨率的下游任务时带来了巨大的计算开销。为应对这一挑战，已有大量研究致力于提升注意力计算的效率。

2024-11-05 18:55:35 1360 1

原创 16、论文阅读：Mamba YOLO：用于目标检测的基于 SSM 的 YOLO

在深度学习技术快速发展的推动下，YOLO 系列在实时目标检测器领域设立了新的标杆。研究人员在 YOLO 的基础上不断探索创新的重参数化、有效的层聚合网络和无锚技术的应用。为了进一步提升检测性能，基于 Transformer 的结构被引入，显著扩展了模型的感受野，并取得了显著的性能提升。然而，这些改进也带来了代价，因为自注意力机制的二次复杂性增加了模型的计算负担。幸运的是，状态空间模型 (SSM) 的出现有效地缓解了由二次复杂性引发的问题。基于这些进展，我们提出了Mamba-YOLO。

2024-11-03 19:23:47 1826 1

原创 15、论文阅读：使用反向多类Adaboost与深度学习的水下目标检测

近年来，基于深度学习的方法在标准目标检测方面取得了令人瞩目的效果。然而，这些方法在应对水下目标检测时能力不足，原因在于以下挑战：(1) 在实际应用中，目标通常较小且图像模糊；(2) 水下数据集及实际应用中的图像伴随异质性噪声。为了解决这两个问题，我们首先提出了一种新颖的神经网络架构，即样本加权超网络 (SWIPENet)，用于小目标检测。SWIPENet由高分辨率和语义丰富的超特征图组成，可以显著提高小目标检测的准确性。此外，我们提出了一种新颖的样本加权损失函数。

2024-10-28 15:03:06 1065 1

原创 14、论文阅读：SuperYOLO：多模态遥感图像中的超分辨率辅助目标检测

在遥感图像 (RSI) 中，准确且及时地检测包含几十个像素的多尺度小物体仍然充满挑战。现有的大多数解决方案主要设计复杂的深度神经网络，以从背景中分离出物体并学习强特征表示，但这通常会导致高计算负担。本文提出了一种名为SuperYOLO的 RSI 目标检测方法，具有准确且快速的特点。该方法通过融合多模态数据和辅助超分辨率 (SR) 学习，在多尺度目标的高分辨率 (HR) 检测中兼顾检测精度和计算成本。

2024-10-25 20:12:41 2526 3

原创加载模型出现 RuntimeError: Error(s) in loading state_dict for Model: Missing key(s) in state_dict

load_state_dict方法参数的官方说明 strict 参数默认是true，他的含义是是否严格要求state_dict中的键与该模块的键返回的键匹配。将load_state_dict(state_dict) 改成 model.load_state_dict(state_dict,，模型加载状态字典时将不会严格检查每个键是否匹配，允许部分加载，这在处理预训练模型或自定义模块时非常有用。

2024-10-21 10:26:40 811

原创 CUDA error: out of memory问题

究其原因，在于model.load_state_dict(torch.load(‘pretrain-model.pth’, map_location=device))这个代码省略了map_location=device。通过torch.load加载预训练模型pretrain-model.pth，map_location=device 是一个参数，用于指定模型参数加载到哪个设备上。加载模型时，模型也不大，GPU内存也完全够，但就是出现这个CUDA内存溢出问题。这就很容易出现内存不足的情况。

2024-10-19 13:19:03 411

原创 13、论文阅读：利用生成对抗网络实现无监督深度图像增强

提高图像的美学质量是一个挑战，并且受到公众的广泛关注。为了解决这个问题，大多数现有算法基于监督学习方法，旨在为成对数据学习一个自动照片增强器，该数据由低质量照片及其对应的专家修饰版本组成。然而，专家修饰的照片的风格和特征可能无法满足普通用户的需求或偏好。本文提出了一种无监督图像增强生成对抗网络（UEGAN），该网络以无监督的方式从一组具有期望特征的图像中学习相应的图像到图像映射，而不是依赖于大量的成对图像。所提出的模型基于单一深度GAN，嵌入了调制和注意力机制，以捕捉更丰富的全局和局部特征。

2024-10-17 16:15:45 1500 1

原创 12、论文阅读：SpikeYOLO：高性能低能耗目标检测网络

脉冲神经网络（Spiking Neural Networks, SNNs）具有生物合理性和低功耗的优势，相较于人工神经网络（Artificial Neural Networks, ANNs）。然而，由于性能较差，目前 SNNs 的应用仅限于简单的分类任务。在这项工作中，我们专注于缩小 SNNs 和 ANNs在物体检测任务上的性能差距。我们的设计围绕网络架构和脉冲神经元展开。首先，YOLO 系列在转换为对应的脉冲版本时，由于模块设计过于复杂，导致了脉冲退化。为了解决这个问题，我们设计了一种。

2024-10-16 15:26:22 1029 1

原创一、Java基础

double d = 8.1 / 3 的结果是一个非常接近2.7的小数，比如2.69999997，这是计算机的运算规则造成的对于第四点，如下所示：b2 和 s1 首先转为int，然后结果赋值给short，肯定错误

2024-10-14 09:05:54 229

原创 11、论文阅读：无监督夜间图像增强：层分解与光效抑制的结合

夜间图像不仅受到低光的影响，而且还受到光的不均匀分布的影响。现有的夜间能见度增强方法大多集中在增强弱光区域。这不可避免地导致明亮区域中的过度增强和饱和，例如受光效应（眩光、泛光灯等）影响的那些区域。为了解决这个问题，我们需要抑制明亮区域中的光效应，同时提高暗区域的强度。考虑到这个想法，我们引入了一种无监督的方法，它集成了层分解网络和光效应抑制网络。给定一张夜间图像作为输入，我们的层分解网络学习分解阴影，反射和灯光效果层，由无监督的特定层先验损失指导。我们的光效应抑制网络进一步。

2024-10-09 14:42:01 1416 1

原创 10、论文阅读：基于双阶对比损失解纠缠表示的无监督水下图像增强

在水下环境中拍摄的图像通常会受到颜色失真、低对比度和视觉质量下降的影响。大多数现有的方法通过对合成图像或伪参考进行有监督的训练来解决水下图像增强（UIE）问题。然而，由于合成的配对数据与真实世界数据之间存在固有差异，这些数据无法准确复制真实情况，同时伪参考的数量和质量也有限，这在对真实水下图像进行测试时严重降低了模型的泛化能力和性能。相比之下，无监督的方法不受配对数据的限制，更加稳健，并在实际应用中具有更大的潜力。然而，现有的无监督方法无法有效约束网络来训练一个可以适应各种退化情况的模型。

2024-10-07 19:09:54 1738 1

原创 9、论文阅读：无监督的感知驱动深水下图像增强

当前的 UIE 算法主要通过最小化增强图像和地面真实图像之间的重建损失，在合成数据集或具有伪标签的数据集上训练深度神经网络（DNN）。但是，合成和真实的水下图像有差距，在合成图像上训练的网络在真实环境下不一定有好的表现。并且使用L1和L2损失函数，往往忽视人类感知的重要性，（L1和L2损失只关注像素级别的差异，没有考虑人类视觉系统的感知特性。人类的眼睛对边缘和纹理的变化敏感，但是对颜色变化相对不敏感。为此，可以使用感知损失或者风格迁移损失），导致增强的图片不尽人意。因此，本论文提出了一个。

2024-09-27 15:56:17 1359 1

原创 8、RCNN介绍及实现

R-CNN论文解读/总结详细笔记

2024-09-24 20:25:21 168

原创 7、论文阅读：20 年来的物体检测：一个调查

本文从技术演变的角度广泛回顾了这个快速发展的研究领域（1990s - 2022s）。本文涵盖了许多主题，包括历史上的目标检测的里程碑检测数据集指标检测系统的基本构建模块加速技术和最新的最先进的检测方法。

2024-09-23 21:12:36 926 1

原创 6、论文阅读：水下图像增强基准数据集及其他数据集

大多数已经提出的水下增强算法都是使用合成数据集或少数选定的真实世界图像，这使得我们无法估计算法在真实环境下的表现。为了解决这个问题，我们提出了UIEB数据集，包括 950 张真实水下图像，其中 890 张有相应的参考图像。我们将其余60张无法获得满意参考图像的水下图像视为具有挑战性的数据。我们使用这个数据集评估了许多先进的水下图像增强的算法。此外，我们还提出了一个新的水下图像增强网络Water-Net，它使用这个数据集进行训练。基于补充信息的方法基于非物理模型的方法基于物理模型的方法和数据驱动的方法。

2024-09-20 18:31:04 1456 1

原创 5、论文阅读：深水下的图像增强

水下场景中，与波长相关的光吸收和散射会降低图像的可见度，导致对比度低和色偏失真。为了解决这个问题，我们提出了一种基于卷积神经网络的图像增强模型，UWCNN，它使用合成水下图像数据库进行有效训练。我们的模型利用自动端到端和数据驱动的训练机制直接重建清晰的潜在水下图像。符合水下成像模型和水下场景的光学特性，我们首先合成十种不同的海洋图像数据库。然后，我们针对每种水下图像形成类型分别训练多个 UWCNN 模型。此外，我们还进行了消融研究，以证明网络中每个组件的效果。直射光、前向散射光和后向散射光。

2024-09-18 21:35:00 1037 1

原创 4、论文阅读：基于深度学习和成像模型的水下图像增强

现在的主要挑战是水下机器人捕获的图像颜色失真。水下图像的色调往往接近绿色和蓝色。另外，对比度低，细节模糊。本文提出了一种基于深度学习和成像模型的水下图像增强新算法，实验结果表明，该方法的优点是消除了水下环境因素的影响，丰富了色彩，增强了细节，帮助特征关键点点匹配获得更好的结果。由于各种环境因素的影响，水下图像的质量通常较低。一方面，整体色彩以绿色和蓝色为主；另一方面，对比度低，细节模糊。水下图像和雾化图像的物理成像模型有很多相似之处，光传输受到空气或水中颗粒散射的影响。

2024-09-18 12:17:31 1453 1

原创 2、论文阅读：用于超高清交通监控的双域引导实时低光图像增强

弱光条件下拍摄的图像通常会出现能见度差和各种退化的情况，例如噪声干扰和模糊边缘特征。随着成像设备的发展，视觉监控数据的质量不断提高，如2K和4K，这对图像处理的效率有着更严格的要求。为了同时满足增强质量和计算速度的要求，提出了一种用于超高清交通监控的双域引导实时微光图像增强网络（DDNet）。具体地说，我们设计了一种编码器-解码器结构作为学习网络的主要结构。特别地，增强处理被分成两个子任务（即，该算法通过嵌入在编解码器结构中的粗增强模块（CEM）和基于LoG的梯度增强模块（GEM），实现了图像的。

2024-09-15 17:09:38 701 1

原创 1、直方图均衡化（Histogram Equalization, HE）

HE主要用来提升图像的对比度图像的直方图均衡化。

2024-09-15 11:45:31 274

原创 15-大模型训练DeepSpeed

[LLM]大模型训练DeepSpeed(一)-原理介绍

2024-09-08 18:55:52 217

原创 14-LLM Pruning and Distillation in Practice: The Minitron Approach

我们将llama3 8B和Mistral NeMo12B的大模型压缩到了4B和8B.我们探索了两种不同的修剪策略（1）深度修剪指的是从模型的深度维度进行剪枝，即减少模型的层数。这种方法通过去除不重要的层，减少模型的整体计算量和复杂度。（2）联合隐藏层/注意力/MLP（宽度）剪枝在这个策略中，模型的隐藏层、注意力头、以及MLP层的宽度（通道数或神经元数）被一起剪枝。这种方法通过减少这些组件的维度来压缩模型。我们发现，当没有访问原始数据时，对教师模型在蒸馏数据集上进行轻微的微调是有益的。

2024-09-08 14:28:34 1093

原创 13、R-Adapter

pass，后续从github更新。

2024-09-08 12:50:13 158

原创 12、Transformers库介绍

Transformers库总体介绍

2024-09-05 09:33:07 487

原创 11、QLora

QLora是一种非常有效的微调办法，可以对具有大规模模型参数的模型进行微调。例如它可以用来微调一个具有 650 亿个参数的大型模型，更重要的是，QLORA 能让这个巨大的模型在单个 48GB 的 GPU 上完成微调，还能保持与 16 位全精度微调相同的性能。最好的模型被命名为Guanaco，可以在单个GPU上用很短的时间完成训练，同时表现非常好。

2024-09-04 20:34:17 1322

原创 12、linux上安装cuda和pytorch

用它文章中安装cpu版本的，其实可能安装的就是gpu版本，可以安装完后测试torch.cuda.is_available()注意在下面这个地方确保目录是一样的。

2024-09-04 16:20:39 409

原创 10、模型量化

模型量化详解

2024-09-04 09:41:27 149

原创 9、微调技术——Lora（论文阅读）

假设原本w为100x100大小，则A大小为100xK，B为Kx100，假设W中有用信息多，我们就可以让k大一点，否则就小一点。假设k=2，则AB中各有200个参数，一共400个，远远比W参数少得多。（1）对于改动的量，可能里面包含许多有限的有用值。比如100亿的参数，可能只有50亿有用，别的都是重复或者可根据已知来推导的。为了减少训练量，我们不会更新所有参数。假设预训练模型的参数矩阵为W，我们可以将其写成W=A*B的形式。（2）有时我们希望模型某一方面的能力更突出，所以只需要训练部分参数即可。

2024-09-02 18:28:13 1215 1

原创 8-微调（本质、全量微调）

假如改动的量有100亿，则全量微调就是寻找这100亿改动的数字，很复杂。微调的本质就是寻找下面这个。

2024-09-02 17:49:46 226

原创 7-RNN、LSTM、GRU

史上最详细循环神经网络讲解（RNN/LSTM/GRU）GRU补充：人人都能看懂的GRU

2024-09-02 11:05:37 189

原创 6、Word2Vec

比如context是never、late，首先将他们表示成one-hot形式，在词向量矩阵中找到这两个词的向量，相加取平均，然后通过线性变化将词向量维度映射成我们需要预测的词表维度，使用softmax函数转化成概率输出即可。离target更近的词跟target相关性更大。所以采用非固定滑动窗口，这样距离target更近的context词有更大几率被采样。以前我们是将不是target的所有词作为负例，现在我们只使用一小部分作为负例。Skip-Gram是根据词预测context。主要是为了平衡常见词和罕见词。

2024-09-02 10:29:35 347

原创 5、transformer架构

Transformer中的自注意力机制被扩展为多个注意力头，每个头可以学习不同的注意权重，以更好地捕捉不同类型的关系。Nx = 6，Encoder block由6个encoder堆叠而成，图中的一个框代表的是一个encoder的内部结构，一个Encoder是由。这样的结构确保解码器在生成序列时，能够考虑到之前的输出，并避免未来信息的影响。例如，在处理文本序列时，模型不应该访问当前词语之后的词语，因此需要将这些词语的注意力权重设置为 0。在训练过程中，模型不应该访问未来信息，因为这会导致模型预测结果不准确。

2024-08-31 18:37:23 600

原创 4、大模型背后的范式

2、然后，我们可以通过具体的任务微调预训练模型来让他适应特定的任务。3、这样该模型就可以在一些新数据上有较好的表现。1、在预训练阶段，预训练模型获得大量的。

2024-08-31 16:22:50 235

原创 3、自然语言处理基础——词表示

通过将我们人类的单词转化成机器能理解的意思当计算机理解了词的意思后，希望计算机拥有以下两种能力：1、计算词之间的相似度2、推断词之间的联系。

2024-08-31 16:09:11 518

原创 2、微调VS提示工程

微调和提示工程都是让预训练语言模型适应特定任务的两种常见方法。

2024-08-31 11:05:56 586

原创 1、自回归语言模型&自编码语言模型

我们知道一般的语言模型都是从左到右计算某个词出现的概率，但是当我们做完型填空或者阅读理解这一类NLP任务的时候词的上下文信息都是需要考虑的，而这个时候只考虑了该词的上文信息而没有考虑到下文信息。所以，反向的语言模型出现了，就是从右到左计算某个词出现的概率，这一类语言模型称之为自回归语言模型。自回归语言模型是根据上文或者下文来预测后一个单词。我们都知道Bert在预训练阶段使用[mask]标记对句子中15%的单词进行随机屏蔽，然后根据被mask单词的上下文来预测该单词，这就是自编码语言模型的典型应用。

2024-08-31 09:52:01 195

空空如也

空空如也