是小果果蛋儿啊-优快云博客

原创 2025CVPR-WGSR

这篇文章《Training Generative Image Super-Resolution Models by Wavelet-Domain Losses Enables Better Control of Artifacts》由Cansu Korkmaz等人撰写，发表于2024年的CVPR。文章提出了一种基于小波域损失函数的生成对抗网络（GAN）超分辨率（SR）模型训练方法，旨在更好地控制超分辨率图像中的伪影和细节重建。

2025-03-27 13:51:24 786

原创 CVPR2025超分-HIIF: Hierarchical Encoding based Implicit Image Function for ContinuousSuper-resolution

数据集使用DIV2K训练数据集进行网络优化，包含800张2K分辨率的图像。评估时使用DIV2K验证集（包含100张图像）和四个常用的测试集：Set5、Set14、BSD100和Urban100。训练材料从DIV2K训练集中生成48×48的训练块。对于任意尺度下采样，从均匀分布 U(1,4) 中采样随机缩放因子 r1,…,rB，即在尺度内。为了便于训练，使用相同的缩放因子用于高度和宽度，即 rx=ry=r，从原始图像中裁剪出48r×48r的块，并通过双三次调整大小生成对应的48×48的下采样版本。

2025-03-26 16:56:15 720

原创 VCC中的CABAC

VVC（Versatile Video Coding）中共定义了上下文模型，这一数量显著高于HEVC（High Efficiency Video Coding）的186种。这一扩展是VVC在熵编码模块（CABAC）中提升压缩效率的关键改进之一，同时也带来了硬件设计上的新挑战。

2025-03-12 14:58:28 342

原创码流扫描顺序

在视频编码和图像处理领域，码流（数据块的传输顺序）从右下角向左上角传递的设计选择，通常与编码效率、解码优化及错误恢复机制密切相关。

2025-03-12 11:22:26 284

原创 cuda编译

（可变形注意力机制）的核心计算逻辑是用 CUDA 编写的。为了让它能够在 GPU 上运行，需要将这些 CUDA 代码编译成 GPU 可以执行的二进制文件（通常是。）中，CUDA 内核的代码是以源代码形式提供的，而不是预编译的二进制文件。因此，用户需要手动编译 CUDA 内核，以生成适合自己环境的二进制文件。如果不编译，GPU 就无法理解这段代码，只能使用效率较低的替代方案。如果不编译 CUDA 内核，。在某些深度学习框架（如。

2025-03-11 15:32:32 429

原创 H.264,H.265,H.266标准技术改进

未来5年，H.266将在超高清专业领域（广电、医疗影像）领先，而AV1主导消费级流媒体。视频编码的目标是在保证视频质量的前提下，尽可能减少数据量。H.265 在 H.264 的基础上大幅提升了压缩效率，尤其适用于高分辨率视频。：在相同质量下，H.266 的比特率比 H.265 再降低 30-50%。H.266 是最新的视频编码标准，进一步提升压缩效率并支持更多应用场景。H.264 是一个重要的视频编码标准，奠定了现代视频压缩的基础。：在相同质量下，H.265 的比特率约为 H.264 的一半。

2025-03-06 14:36:36 1024

原创 ubuntu直接安装mobaxterm

首先，你需要安装Wine，这是一个允许在Linux上运行Windows应用程序的兼容层。：从Mobaxterm的官方网站下载适用于Windows的安装包。按照安装向导完成安装过程。

2025-03-05 10:13:01 668

原创激活函数表示和应用

激活函数输出范围优点缺点典型用途Sigmoid(0, 1)平滑、有概率意义梯度消失、计算复杂输出层（二分类）ReLU[0, 无穷)简单、缓解梯度消失、稀疏性死亡神经元问题隐藏层Leaky ReLU(-无穷, 无穷)解决死亡神经元、保留 ReLU 优点参数 αα 需调优隐藏层（改进 ReLU）

2025-02-27 20:09:17 827

原创 faster rcnn FPN损失项

这些损失项是 Faster R-CNN 的核心组成部分，分别优化分类、边界框回归、RPN 分类和 RPN 定位。

2025-02-24 20:56:47 321

原创图像重建损失

常见的图像重建损失为：SSIM、MSE 和余弦相似度损失；

2025-02-24 10:40:07 353

原创 SIMD、SIMD、SIMT、MISD、MIMD

单条指令同时操作多个数据元素，所有处理单元（如CPU的向量寄存器或GPU的CUDA核心）三个处理器对同一传感器数据分别运行不同算法，投票选出最终结果。SIMD的扩展，由GPU（如NVIDIA CUDA）实现。，线程可独立处理分支（通过掩码解决分支发散）。典型例子：多核CPU、分布式计算集群。现实中极少使用，主要用于冗余容错。（通过掩码控制哪些线程激活）（如Web服务器）→。

2025-02-19 16:25:01 478

原创 Transformer和CNN

多层CNN在捕捉全局上下文信息和长距离依赖关系方面存在局限性，主要体现在局部感受野的限制、长距离依赖问题、并行化能力不足、计算复杂度高以及特征提取能力有限等方面。相比之下，Transformer通过自注意力机制有效解决了这些问题，使其在处理全局信息和长距离依赖关系方面具有显著优势。

2025-02-19 09:56:48 1302

原创最大似然估计（MLE）和最大后验估计（MAP）

MLE和MAP

2025-02-13 17:35:31 330

原创 2024 StoryDiffusion 文字/文字+图像-----＞视频

StoryDiffusion在生成平滑、物理一致的过渡视频方面表现出色，尤其在用户偏好度、角色一致性以及与现有模型的兼容性方面具有显著优势。然而，其在细微细节的一致性和复杂场景下的表现仍有改进空间。

2025-02-12 21:29:47 1347

原创 2024 CyberHost 语音+图像-视频

训练阶段：分为预训练阶段和端到端训练阶段。损失函数：包括基础去噪损失、辅助关键点损失和局部重权损失，用于优化生成视频的质量和关键区域的细节。

2025-02-12 18:03:11 1185

原创 GAIA介绍

GAIA模型通过解耦运动与外观的表示，并结合变分自编码器、扩散模型和时间超分辨率等技术，成功地优化了生成过程。这些优化措施不仅提高了生成视频的自然度和视觉效果，还增强了唇同步质量和运动稳定性。此外，GAIA在处理不同参考图像时表现出鲁棒性，能够生成多样化的动作和场景，从而显著提升了生成视频的整体质量。

2025-02-12 16:30:49 831

原创 2024 Loopy

Loopy框架基于Stable Diffusion（SD）构建，并使用其初始化权重。SD是一个基于潜在扩散模型（Latent Diffusion Model, LDM）的文本到图像扩散模型。它使用预训练的VQ-VAE将图像从像素空间转换到潜在空间。在训练过程中，图像首先被转换为潜在变量，即 z0=E(I)。

2025-02-12 16:30:11 683

原创扩散模型（Diffusion Models）原理 1

扩散模型（Diffusion Models）是一种生成模型，它在图像生成、语音合成、文本生成等领域展现出了巨大的潜力和优越性。扩散模型的核心思想是通过模拟物理扩散过程，将数据逐步转化为噪声，然后学习逆向过程，从噪声中逐步恢复出原始数据。

2025-01-13 11:08:57 1049

原创训练Nan 或无穷大（INF）

NaN：是 “not a number” 的缩写，表示不是一个数字，通常在数学运算出现未定义或无效结果时产生，例如 0/0、∞ - ∞ 等不确定形式。在深度学习模型训练中，像对包含 NaN 值的数据进行计算，或者某些运算导致结果超出可表示范围，都可能出现 NaN。INF：是 “infinity” 的简写，意为无穷大。常见于一些函数在特定输入下的极限情况，如求损失函数用到 log (x)，当 x 接近 0 时，结果趋近于负无穷大；又或是分母趋近于 0 时，分数值趋近于正无穷大。

2025-01-09 17:19:46 997

原创 EventStorage +TensorBoard

和可以通过来结合使用，从而将训练过程中的标量信息（如损失、准确率等）记录到 TensorBoard 中进行可视化。是一个强大的可视化工具，常用于监控神经网络训练的过程，是 Detectron2 中提供的用于将信息写入 TensorBoard 的工具。本身用于存储和管理训练过程中的标量数据，它通过与不同的记录器（例如JSONWriter等）配合使用来记录和保存训练过程中的信息。会将这些信息写入到 TensorBoard 日志文件中，你可以通过 TensorBoard 来实时监控训练过程。以下是如何将与。

2025-01-09 16:09:54 260

原创 EventStorage 用法

是一个非常重要的工具，它用于在训练过程中存储和管理训练指标（如损失、准确率等）、时间戳等信息。它的设计目的是为了简化训练过程中的数据记录和事件管理，尤其是在多进程训练中，它能有效地管理和输出训练的日志和指标。的构造函数是非常简单的，它通常接受一个start_iter参数，表示训练开始的迭代次数。storagewith提供了几个方法来记录和输出数据。

2025-01-09 16:06:40 430

原创 python3-1.数据类型

print(a | b) # a 和 b 的并集 {'b', 'c', 'a', 'z', 'm', 'r', 'l', 'd'}列表是有序的对象集合，字典是无序的对象集合。print(a ^ b) # a 和 b 中不同时存在的元素{'z', 'b', 'm', 'r', 'l', 'd'}*可以用dict()来构建，如dict([('yi':'re'),('yti':'rve')])或者。print(a - b) # a 和 b 的差集 {'r', 'b', 'd'}

2025-01-01 20:41:22 851

原创 cv中的一些Loss

在深度学习中常用于优化图像生成、图像恢复、图像分割等任务，尤其在提升图像的局部细节、结构或纹理方面有显著的效果。这类损失函数通常依赖于图像的梯度信息，以便模型能够捕捉到图像的边缘、纹理和细节部分。边缘保持损失通过对图像的梯度进行约束，确保图像的边缘和纹理细节得到保留。这种损失函数通常通过对图像的梯度进行计算，以便在重建图像时不损失重要的边缘信息。梯度计算可以通过Sobel算子、Prewitt算子等方式获得。梯度相似性损失是通过计算图像的梯度信息来度量生成图像与真实图像在梯度空间的相似性。

2024-12-31 17:28:12 1222

原创图像/特征相似计算

计算预测图像和目标图像的像素间损失。损失函数，如等，大部分都可以应用于在目标变量的每一对像素之间进行预测。

2024-12-31 17:06:25 1191

原创 TGRS | 可变形傅里叶卷积用于遥感道路分割

题目：Fourier-Deformable Convolution Network for Road Segmentation From Remote Sensing Images期刊：IEEE Transactions on Geoscience and Remote Sensing论文：https://ieeexplore.ieee.org/document/10707598/代码：https://github.com/zhoucharming/FDNet年份：2024单位：南京理工。

2024-12-25 18:01:54 1309

原创【ECCV 2024】傅里叶卷积混合器

北京航空航天大学航天学院文章讨论的是单图像去雨（Single Image Deraining, SID）问题，这是一个低级图像恢复任务，目的是从雨图中恢复出干净的背景图像。文章提出了一个名为FADformer（Frequency-Aware Deraining Transformer Framework）的新框架，它通过在频域中捕捉特征来高效去除雨水。文章指出，现有的基于Transformer的方法在全局建模方面效率不高，并且在训练中要么忽视了负样本信息，要么没有充分利用负样本中的雨迹模式。

2024-12-25 17:11:24 1793

原创常见滤波器

计算机视觉中的边缘检测预处理：在进行图像边缘检测时，如Canny边缘检测算法，高斯滤波是重要的预处理步骤。它能够平滑图像，减少噪声对边缘检测结果的影响，同时由于其对边缘的模糊程度相对较小，能较好地保留边缘的强度信息。医学图像的增强与分析：在医学影像领域，如X光、CT等图像中，图像可能存在因成像设备、患者身体运动等因素产生的噪声。：在人像摄影后期处理中，双边滤波可在平滑皮肤的同时保留面部的五官轮廓、毛发等细节信息，使人物皮肤看起来更加细腻自然。：在视频跟踪任务中，双边滤波可对视频帧进行预处理，

2024-12-25 15:43:44 819

原创图像网格噪声处理

变换，将图像显示在频率域中，通过观察频谱图，发现其中包含八个较为明显的亮点，这些亮点在原图中就是网格。2.巴特沃斯陷波带阻滤波器传递函数乘以傅里叶变换的结果（左下图）（参见数字图像处理207页）3.手动圈选特定位置，将选定位置的值设置为频谱图中的最小值，（代码见参考[1]）1.对频谱图设置一个阈值二值化进行阈值分割，然后通过膨胀腐蚀等操作找到这些亮斑。

2024-12-25 10:51:19 192

原创图像域转频率域方法

图像傅里叶变换：从空域转换到频域（包含频谱图分析、简单带阻滤波器理解）_傅里叶变换从空间域到频域-优快云博客Matlab 频域滤波处理周期噪声图像（带阻滤波器滤波）_matlab对图片进行高通带阻滤波-优快云博客

2024-12-23 21:20:12 340

原创安装paddle

原因：python版本和paddle版本不兼容；解决方法： paddle 2.6.1使用 python 3.9；

2024-11-12 17:18:41 882

原创 2023 文字识别 DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting

文章开始时讨论了文本检测和识别在自然场景中的重要性，以及现有方法中存在的问题，比如处理检测和识别子任务之间关系的困难，以及训练效率低下。：提出了DeepSolo，这是一个基于DETR（Detection Transformer）的模型，它使用单个解码器和显式点查询来同时进行文本检测和识别。DeepSolo通过将文本字符序列表示为有序点，并使用可学习的显式点查询来建模这些点，从而编码文本的语义和位置。：为了提供更准确的监督信号，文章引入了一种基于文本匹配的标准，这有助于提高训练效率。

2024-11-11 15:37:35 531

原创 CV各个任务和数据集

https://zhuanlan.zhihu.com/p/676606510

2024-11-01 16:40:59 146

原创 CVPR 2024 中科大 Towards More Unified In-context Visual Understanding

因此，我们利用语义线索重新定义传统视觉任务，强调视觉语言理解任务，例如语义分割和图像字幕，分别称为类感知上下文分割和描述（CA-ICL Segmentation、Captioning）。（2）在将输入转换为预定义的提示格式后，使用特定于模态的标记器将输入对的上下文提示量化为离散标记，然后使用通用嵌入网络将它们嵌入到统一表示中。（1）通过组织良好的视觉语言提示，以描述基本的视觉理解任务，如分割和字幕。的优势与上下文学习的视觉语言任务的具体要求无缝集成。我们提出了一个框架可以将。

2024-11-01 16:25:57 191

原创 CVPR 2024 无监督目标分割SPOT-SOTA

遵循先前的Slot-based auto-encoder架构，使用自训练蒸馏的方法，

2024-11-01 14:57:50 336

原创 2024 Fast Transform Kernel Selection Basedon Frequency Matching and ProbabilityModel for AV1

基于导出的正态模型，设计了一种快速变换核选择算法，该算法具有可扩展性和硬件友好性，能够跳过非优选的变换核。实验结果表明，该快速算法在跳过57.66%的变换核的情况下，性能损失仅为1.15%，编码时间节省了20.09%，优于文献中的其他快速算法，并且与AV1参考软件中的基于神经网络的剪枝算法具有竞争力。：利用FMF的分布特性，为每个FMF建立了nRDOC的高斯正态概率模型，并将这些模型参数表示为FMF的函数，提高了模型的准确性和编码性能。

2024-10-29 15:26:14 158

原创 MASKDINO代码安装

Feng Li本库是《Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation》的官方实现（DINO 发音为 `daɪnoʊ'，如在 dinosaur 中）。我们的代码基于 detectron2，detrex 版本同步开源。🔥 我们发布了基于 MaskDINO 的强大开放集物体检测和分割模型 OpenSeeD，已在开放集物体分割任务上取得最佳结果。代码和检查点可在此处获取。

2024-10-28 00:48:35 948

空空如也

空空如也