- 博客(45)
- 收藏
- 关注
原创 2025CVPR-WGSR
这篇文章《Training Generative Image Super-Resolution Models by Wavelet-Domain Losses Enables Better Control of Artifacts》由Cansu Korkmaz等人撰写,发表于2024年的CVPR。文章提出了一种基于小波域损失函数的生成对抗网络(GAN)超分辨率(SR)模型训练方法,旨在更好地控制超分辨率图像中的伪影和细节重建。
2025-03-27 13:51:24
786
原创 CVPR2025超分-HIIF: Hierarchical Encoding based Implicit Image Function for ContinuousSuper-resolution
数据集使用DIV2K训练数据集进行网络优化,包含800张2K分辨率的图像。评估时使用DIV2K验证集(包含100张图像)和四个常用的测试集:Set5、Set14、BSD100和Urban100。训练材料从DIV2K训练集中生成48×48的训练块。对于任意尺度下采样,从均匀分布 U(1,4) 中采样随机缩放因子 r1,…,rB,即在尺度内。为了便于训练,使用相同的缩放因子用于高度和宽度,即 rx=ry=r,从原始图像中裁剪出48r×48r的块,并通过双三次调整大小生成对应的48×48的下采样版本。
2025-03-26 16:56:15
720
原创 VCC中的CABAC
VVC(Versatile Video Coding)中共定义了上下文模型,这一数量显著高于HEVC(High Efficiency Video Coding)的186种。这一扩展是VVC在熵编码模块(CABAC)中提升压缩效率的关键改进之一,同时也带来了硬件设计上的新挑战。
2025-03-12 14:58:28
342
原创 cuda编译
(可变形注意力机制)的核心计算逻辑是用 CUDA 编写的。为了让它能够在 GPU 上运行,需要将这些 CUDA 代码编译成 GPU 可以执行的二进制文件(通常是。)中,CUDA 内核的代码是以源代码形式提供的,而不是预编译的二进制文件。因此,用户需要手动编译 CUDA 内核,以生成适合自己环境的二进制文件。如果不编译,GPU 就无法理解这段代码,只能使用效率较低的替代方案。如果不编译 CUDA 内核,。在某些深度学习框架(如 。
2025-03-11 15:32:32
429
原创 H.264,H.265,H.266标准技术改进
未来5年,H.266将在超高清专业领域(广电、医疗影像)领先,而AV1主导消费级流媒体。视频编码的目标是在保证视频质量的前提下,尽可能减少数据量。H.265 在 H.264 的基础上大幅提升了压缩效率,尤其适用于高分辨率视频。:在相同质量下,H.266 的比特率比 H.265 再降低 30-50%。H.266 是最新的视频编码标准,进一步提升压缩效率并支持更多应用场景。H.264 是一个重要的视频编码标准,奠定了现代视频压缩的基础。:在相同质量下,H.265 的比特率约为 H.264 的一半。
2025-03-06 14:36:36
1024
原创 ubuntu直接安装mobaxterm
首先,你需要安装Wine,这是一个允许在Linux上运行Windows应用程序的兼容层。: 从Mobaxterm的官方网站下载适用于Windows的安装包。按照安装向导完成安装过程。
2025-03-05 10:13:01
668
原创 激活函数表示和应用
激活函数输出范围优点缺点典型用途Sigmoid(0, 1)平滑、有概率意义梯度消失、计算复杂输出层(二分类)ReLU[0, 无穷)简单、缓解梯度消失、稀疏性死亡神经元问题隐藏层Leaky ReLU(-无穷, 无穷)解决死亡神经元、保留 ReLU 优点参数 αα 需调优隐藏层(改进 ReLU)
2025-02-27 20:09:17
827
原创 faster rcnn FPN损失项
这些损失项是 Faster R-CNN 的核心组成部分,分别优化分类、边界框回归、RPN 分类和 RPN 定位。
2025-02-24 20:56:47
321
原创 SIMD、SIMD、SIMT、MISD、MIMD
单条指令同时操作多个数据元素,所有处理单元(如CPU的向量寄存器或GPU的CUDA核心)三个处理器对同一传感器数据分别运行不同算法,投票选出最终结果。SIMD的扩展,由GPU(如NVIDIA CUDA)实现。,线程可独立处理分支(通过掩码解决分支发散)。典型例子:多核CPU、分布式计算集群。现实中极少使用,主要用于冗余容错。(通过掩码控制哪些线程激活)(如Web服务器)→。
2025-02-19 16:25:01
478
原创 Transformer和CNN
多层CNN在捕捉全局上下文信息和长距离依赖关系方面存在局限性,主要体现在局部感受野的限制、长距离依赖问题、并行化能力不足、计算复杂度高以及特征提取能力有限等方面。相比之下,Transformer通过自注意力机制有效解决了这些问题,使其在处理全局信息和长距离依赖关系方面具有显著优势。
2025-02-19 09:56:48
1302
原创 2024 StoryDiffusion 文字/文字+图像----->视频
StoryDiffusion在生成平滑、物理一致的过渡视频方面表现出色,尤其在用户偏好度、角色一致性以及与现有模型的兼容性方面具有显著优势。然而,其在细微细节的一致性和复杂场景下的表现仍有改进空间。
2025-02-12 21:29:47
1347
原创 2024 CyberHost 语音+图像-视频
训练阶段:分为预训练阶段和端到端训练阶段。损失函数:包括基础去噪损失、辅助关键点损失和局部重权损失,用于优化生成视频的质量和关键区域的细节。
2025-02-12 18:03:11
1185
原创 GAIA介绍
GAIA模型通过解耦运动与外观的表示,并结合变分自编码器、扩散模型和时间超分辨率等技术,成功地优化了生成过程。这些优化措施不仅提高了生成视频的自然度和视觉效果,还增强了唇同步质量和运动稳定性。此外,GAIA在处理不同参考图像时表现出鲁棒性,能够生成多样化的动作和场景,从而显著提升了生成视频的整体质量。
2025-02-12 16:30:49
831
原创 2024 Loopy
Loopy框架基于Stable Diffusion(SD)构建,并使用其初始化权重。SD是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的文本到图像扩散模型。它使用预训练的VQ-VAE将图像从像素空间转换到潜在空间。在训练过程中,图像首先被转换为潜在变量,即 z0=E(I)。
2025-02-12 16:30:11
683
原创 扩散模型(Diffusion Models)原理 1
扩散模型(Diffusion Models)是一种生成模型,它在图像生成、语音合成、文本生成等领域展现出了巨大的潜力和优越性。扩散模型的核心思想是通过模拟物理扩散过程,将数据逐步转化为噪声,然后学习逆向过程,从噪声中逐步恢复出原始数据。
2025-01-13 11:08:57
1049
原创 训练Nan 或无穷大(INF)
NaN:是 “not a number” 的缩写,表示不是一个数字,通常在数学运算出现未定义或无效结果时产生,例如 0/0、∞ - ∞ 等不确定形式。在深度学习模型训练中,像对包含 NaN 值的数据进行计算,或者某些运算导致结果超出可表示范围,都可能出现 NaN。INF:是 “infinity” 的简写,意为无穷大。常见于一些函数在特定输入下的极限情况,如求损失函数用到 log (x),当 x 接近 0 时,结果趋近于负无穷大;又或是分母趋近于 0 时,分数值趋近于正无穷大。
2025-01-09 17:19:46
997
原创 EventStorage +TensorBoard
和可以通过来结合使用,从而将训练过程中的标量信息(如损失、准确率等)记录到 TensorBoard 中进行可视化。是一个强大的可视化工具,常用于监控神经网络训练的过程,是 Detectron2 中提供的用于将信息写入 TensorBoard 的工具。本身用于存储和管理训练过程中的标量数据,它通过与不同的记录器(例如JSONWriter等)配合使用来记录和保存训练过程中的信息。会将这些信息写入到 TensorBoard 日志文件中,你可以通过 TensorBoard 来实时监控训练过程。以下是如何将与。
2025-01-09 16:09:54
260
原创 EventStorage 用法
是一个非常重要的工具,它用于在训练过程中存储和管理训练指标(如损失、准确率等)、时间戳等信息。它的设计目的是为了简化训练过程中的数据记录和事件管理,尤其是在多进程训练中,它能有效地管理和输出训练的日志和指标。的构造函数是非常简单的,它通常接受一个start_iter参数,表示训练开始的迭代次数。storagewith提供了几个方法来记录和输出数据。
2025-01-09 16:06:40
430
原创 python3-1.数据类型
print(a | b) # a 和 b 的并集 {'b', 'c', 'a', 'z', 'm', 'r', 'l', 'd'}列表是有序的对象集合,字典是无序的对象集合。print(a ^ b) # a 和 b 中不同时存在的元素{'z', 'b', 'm', 'r', 'l', 'd'}*可以用dict()来构建,如dict([('yi':'re'),('yti':'rve')])或者。print(a - b) # a 和 b 的差集 {'r', 'b', 'd'}
2025-01-01 20:41:22
851
原创 cv中的一些Loss
在深度学习中常用于优化图像生成、图像恢复、图像分割等任务,尤其在提升图像的局部细节、结构或纹理方面有显著的效果。这类损失函数通常依赖于图像的梯度信息,以便模型能够捕捉到图像的边缘、纹理和细节部分。边缘保持损失通过对图像的梯度进行约束,确保图像的边缘和纹理细节得到保留。这种损失函数通常通过对图像的梯度进行计算,以便在重建图像时不损失重要的边缘信息。梯度计算可以通过Sobel算子、Prewitt算子等方式获得。梯度相似性损失是通过计算图像的梯度信息来度量生成图像与真实图像在梯度空间的相似性。
2024-12-31 17:28:12
1222
原创 TGRS | 可变形傅里叶卷积用于遥感道路分割
题目:Fourier-Deformable Convolution Network for Road Segmentation From Remote Sensing Images期刊:IEEE Transactions on Geoscience and Remote Sensing论文:https://ieeexplore.ieee.org/document/10707598/代码:https://github.com/zhoucharming/FDNet年份:2024单位:南京理工。
2024-12-25 18:01:54
1309
原创 【ECCV 2024】傅里叶卷积混合器
北京航空航天大学航天学院文章讨论的是单图像去雨(Single Image Deraining, SID)问题,这是一个低级图像恢复任务,目的是从雨图中恢复出干净的背景图像。文章提出了一个名为FADformer(Frequency-Aware Deraining Transformer Framework)的新框架,它通过在频域中捕捉特征来高效去除雨水。文章指出,现有的基于Transformer的方法在全局建模方面效率不高,并且在训练中要么忽视了负样本信息,要么没有充分利用负样本中的雨迹模式。
2024-12-25 17:11:24
1793
原创 常见滤波器
计算机视觉中的边缘检测预处理:在进行图像边缘检测时,如Canny边缘检测算法,高斯滤波是重要的预处理步骤。它能够平滑图像,减少噪声对边缘检测结果的影响,同时由于其对边缘的模糊程度相对较小,能较好地保留边缘的强度信息。医学图像的增强与分析:在医学影像领域,如X光、CT等图像中,图像可能存在因成像设备、患者身体运动等因素产生的噪声。:在人像摄影后期处理中,双边滤波可在平滑皮肤的同时保留面部的五官轮廓、毛发等细节信息,使人物皮肤看起来更加细腻自然。:在视频跟踪任务中,双边滤波可对视频帧进行预处理,
2024-12-25 15:43:44
819
原创 图像网格噪声处理
变换,将图像显示在频率域中,通过观察频谱图,发现其中包含八个较为明显的亮点,这些亮点在原图中就是网格。2.巴特沃斯陷波带阻滤波器传递函数乘以傅里叶变换的结果(左下图)(参见数字图像处理207页)3.手动圈选特定位置,将选定位置的值设置为频谱图中的最小值,(代码见参考[1])1.对频谱图设置一个阈值二值化进行阈值分割,然后通过膨胀腐蚀等操作找到这些亮斑。
2024-12-25 10:51:19
192
原创 图像域转频率域方法
图像傅里叶变换:从空域转换到频域(包含频谱图分析、简单带阻滤波器理解)_傅里叶变换从空间域到频域-优快云博客Matlab 频域滤波处理周期噪声图像(带阻滤波器滤波)_matlab对图片进行高通带阻滤波-优快云博客
2024-12-23 21:20:12
340
原创 2023 文字识别 DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting
文章开始时讨论了文本检测和识别在自然场景中的重要性,以及现有方法中存在的问题,比如处理检测和识别子任务之间关系的困难,以及训练效率低下。:提出了DeepSolo,这是一个基于DETR(Detection Transformer)的模型,它使用单个解码器和显式点查询来同时进行文本检测和识别。DeepSolo通过将文本字符序列表示为有序点,并使用可学习的显式点查询来建模这些点,从而编码文本的语义和位置。:为了提供更准确的监督信号,文章引入了一种基于文本匹配的标准,这有助于提高训练效率。
2024-11-11 15:37:35
531
原创 CVPR 2024 中科大 Towards More Unified In-context Visual Understanding
因此,我们利用语义线索重新定义传统视觉任务,强调视觉语言理解任务,例如语义分割和图像字幕,分别称为类感知上下文分割和描述(CA-ICL Segmentation、Captioning)。(2)在将输入转换为预定义的提示格式后,使用特定于模态的标记器将输入对的上下文提示量化为离散标记,然后使用通用嵌入网络将它们嵌入到统一表示中。(1)通过组织良好的视觉语言提示,以描述基本的视觉理解任务,如分割和字幕。的优势与上下文学习的视觉语言任务的具体要求无缝集成。我们提出了一个框架可以将。
2024-11-01 16:25:57
191
原创 2024 Fast Transform Kernel Selection Basedon Frequency Matching and ProbabilityModel for AV1
基于导出的正态模型,设计了一种快速变换核选择算法,该算法具有可扩展性和硬件友好性,能够跳过非优选的变换核。实验结果表明,该快速算法在跳过57.66%的变换核的情况下,性能损失仅为1.15%,编码时间节省了20.09%,优于文献中的其他快速算法,并且与AV1参考软件中的基于神经网络的剪枝算法具有竞争力。:利用FMF的分布特性,为每个FMF建立了nRDOC的高斯正态概率模型,并将这些模型参数表示为FMF的函数,提高了模型的准确性和编码性能。
2024-10-29 15:26:14
158
原创 MASKDINO代码安装
Feng Li本库是《Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation》的官方实现(DINO 发音为 `daɪnoʊ',如在 dinosaur 中)。我们的代码基于 detectron2,detrex 版本同步开源。🔥 我们发布了基于 MaskDINO 的强大开放集物体检测和分割模型 OpenSeeD,已在开放集物体分割任务上取得最佳结果。代码和检查点可在此处获取。
2024-10-28 00:48:35
948
原创 Swin-Transformer模型和参数
Swin Transformer(Swin 的意思是 Shifted window)最初在 arxiv 中描述,能够作为计算机视觉的通用骨干。它基本上是一个分层 Transformer,其表示通过位移窗口计算。位移窗口方案通过将自注意力计算限制在不重叠的局部窗口中,同时允许跨窗口连接,从而提高了效率。
2024-10-28 00:31:10
1144
原创 机器学习 文件后缀含义
.pth:.yaml:.pkl:.json:.h5 / .hdf5:.ckpt:.onnx:.pb:.npz / .npy:.txt:.tflite:.pbtxt:
2024-10-27 11:21:18
346
原创 COCO数据集
不仅检测图像中的物体,还要对每个物体实例进行分割,通常需要模型具备区分同一类别不同实例的能力。:结合了实例分割和语义分割,对图像中的所有对象和背景进行分割,区分“事物”和“东西”。:对图像中的每个像素进行分类,以识别像素所属的类别,如道路、建筑物、树木等。:利用COCO数据集进行图像生成模型的训练,如使用生成对抗网络(GAN)等。:识别图像中的特定兴趣点,如人身体的关节,用于动作识别、人机交互等。:识别图像中的物体并确定它们的位置,通常使用边界框来表示。train2017 118,000张。
2024-10-25 21:36:40
1744
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人