自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

read, note and comment papers

hard hard learning day day up

  • 博客(262)
  • 资源 (3)
  • 收藏
  • 关注

原创 Is Noise Conditioning Necessary for Denoising Generative Models?论文阅读笔记

如果能做到这一点,是有好处的,比如可以使用一个统一的score function,而不需要以 t 为条件,这样在理论上更优雅一些。不唯一,那么这个损失函数并不是真正地让网络在回归拟合一个函数,这个函数不存在,网络只是在学习r的可能取值的期望。不过,由于推理阶段需要迭代采样,随着采样schedule的不同,产生的积累误差也不同。,就可以直接用这里的unconditional变体代替conditional的,网络就不需要。总结,很有意思的一篇工作,虽然没有提出效果更好的模型,但是从理论和实验都展示了一个结论,

2025-02-27 20:24:28 1189 1

原创 CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up 论文阅读笔记

新国立的一个工作,提出一种轻量化注意力的方法,把用局部注意力代替DiT里面的注意力从而在生成8K图像上能加速6.3倍,并且可以高效地从预训练好的DiT上迁移到这个轻量的模型上。现有高效注意力的方法,大致可以分为三类,formulation variation, key-value compression, 以及 key-value sampling。实验发现,第一类在train from scratch上是有效的,但从pretrain模型上迁移则不太行;第二类方法则导致细节失真,第三类方法则依赖于lo

2025-01-07 21:05:54 329 2

原创 A Comparative Study of Image Restoration Networks for General Backbone Network Design 论文阅读笔记

董超老师通讯的一篇发表在ECCV2024的论文。顶会上很少出现这种study类的论文,但如果出现了,一般质量都很高。文章的动机是说,现有的restoration网络总是只能在某些restoration表现很好,而在另一些上表现就没有那么好。那么能不能设计一个网络能够在所有的restoration任务上都能有较高的性能呢,这叫generality。为了达到这个目的,必须了解各个restoration任务偏好什么样的网络结构和模块设计,找出共性。就结果而言,文章提出了一个新的网络结构叫X-Restorme

2024-11-08 16:28:55 550 1

原创 SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记

这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章,港科大陈启峰也挂了名字。从首页图看效果确实很惊艳,尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成,对原图内容并不是很复原(不过在生成式方法中已经做得很好了),适合超级噪声图这种原图信息丢失十分严重的场景:整体方法流程如下图所示,用的是stable diffusion的框架,甚至模型参数都是pretrain好后fix住的,在此之上,用controlnet的风格添加了另外一部分网

2024-11-07 21:16:09 572 1

原创 OneRestore: A Universal Restoration Framework for Composite Degradation 论文阅读笔记

这是武汉大学一作单位的一篇发表在ECCV2024上的论文,文章代码开源,文章首页图如下所示,做混合图像干扰去除,还能分别去除,看起来很牛逼。文章是少见的做混合图像干扰去除的,不过可惜只包含了3种degradation,而甚至不包含noise。三种分别是low-light,rain/snow,以及haze。文章认为一张degraded image,是由它对应的clear state通过以上提及的顺序叠加degradation生成的。其中low-light用retinex理论来分解,雨就直接加雨图,雪就

2024-11-07 20:27:11 647 1

原创 Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration

这是南开大学第一单位的一篇发表在ECCV2024的一篇论文,李重仪老师是通讯作者,文章代码开源:https://github.com/Dragonisss/RAM文章的动机说是MIM没有很好地用到low level领域,所以要改进一下用到low level领域。。其实这样的动机有点危险,最好的动机是现在的方法有哪些问题,用一个新或老的方法能够解决这个问题,算是一个合乎逻辑的动机。而A方法暂时没有很好地用到B领域,所以要改进一下来用上去,感觉并不是一个好的理由。方法的流程如下所示:首先随机mask

2024-11-06 20:37:44 545

原创 MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

从bcd图可以看到(其实画得很含糊,不仔细,需要看附录,如下图),所谓MoE-Prompt,其实就是在原有的feature上,去和利用DA-CLIP对原图提取的degradation prior,进行交叉注意力,再用noisy top-k这个常用的MoE方法,得到top k个专家prompt,进行求和,再用结果的prompt去和feature计算矩阵乘法,得到经过MoE处理后的特征。用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。

2024-11-06 18:55:22 394 1

原创 InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

ee。

2024-10-30 21:46:15 828 1

原创 GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity 论文阅读笔记

这些分布可以保存着,当inference阶段需要选择多专家模型时,可以利用输入图像的SRResNet特征的GGD分布(分成patch),计算和这些degradation分布之间的相似度,来决定选择在哪个degradation上train的模型进行restoration。不过由于前面进行了degradation的分组,所以其实是计算组内GGD的平均,作为组GGD,然后计算输入图像和每个组的组GGD之间的KL散度,最小的那个即为对应组别,可以用对应组别train的模型进行inference。

2024-10-30 20:42:20 417 1

原创 Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记

Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记这是新国立和新加坡管理大学发表在ECCV2024上的一篇image restoration的文章,提出了一个新的网络结构ECMA,从实验结果上看在超分,去噪,去模糊上都达到了SOTA,卷到这年头还有人在改进网络结构,真是不容易。网络结构如下图所示,整体上还是unet:每个block如下所示:这里的LAM就是local adaptive conv

2024-10-30 18:43:20 475 2

原创 Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记

Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记ECCV2024的一篇文章,是韩国首尔国立大学发表的。代码没有开源文章的核心思想是想把LoRA用到Real Image Restoration上,来使得在多任务的restoration上的多专家模型可以共享大多数参数而只需要finetune一小部分参数,如下图所示。文章另一个创新点感觉是凑数的,就是pret

2024-10-30 16:08:45 352 1

原创 AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion论文阅读笔记

比如有5个针对不同降质的数据集,那么就有5个label和5个text embedding,再加上他们的GT是 no artifact,一共6个label 6个text embedding,可以和图像进行对比学习,计算图像提取的embedding和这6个文本embedding之间的余弦相似度,再过softmax,得到概率分布,计算多分类损失,fix住text encoder,就可以finetune image encoder,从而得到一个用于提取图像质量embedding的image encoder。

2024-10-29 20:59:43 1376 1

原创 diffusion model 合集

diffusion model 整理DDPM:前向一步到位,从数据集里的图片加噪声,根据随机到的 ttt 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去:训练过程是对每个样本分配一个随机的t,采样一个高斯噪声ϵ\epsilonϵ,然后根据 t 对图片和噪声进行混合,将加噪的图片和 t 送进模型,预测噪声,计算预测的噪声和ϵ\epsilonϵ的L2距离。测试过程则是采样一个高斯噪声xTx_T

2024-09-07 11:01:28 815

原创 用序列模型(GPT Bert Transformer等)进行图像处理的调研记录

VLM调研记录

2024-08-22 14:07:20 1280 2

原创 transdreamer 论文阅读笔记

这篇文章是对dreamer系列的改进,是一篇world model 的论文改进点在于,dreamer用的是循环神经网络,本文想把它改成transformer,并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉,dreamer用ht和xt来预测zt,但transformer要实现并行训练的话,最好是不要有ht,因为ht依赖transformer来预测,而transformer又需要zt作为输入,形成循环依赖就只能一步一步地生成。为此,把zt的预测改成只依赖于

2024-06-18 20:12:47 519 1

原创 Repetition Improves Language Model Embeddings论文阅读笔记

文章提出了一种提高decoder-only LLM的embedding能力的方法,叫echo embeddingslast-token pooling(即直接选最后一个token作为句子的embedding)和直接mean pooling都不如文章提出的echo embedding,做法是把句子重复两次,然后取第二次的token是的mean pooling。mean pooling的缺点是太强调句子的前面部分,last-token pooling是太强调句子的后面部分,而重复两次后,第二次的句子的起始

2024-06-18 15:46:07 558 1

原创 GRIT论文阅读笔记

一篇试图统一生成任务和编码任务的工作,就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单,就是在输入的时候添加instruction tokens来指引模型做representation还是generation,然后各自算损失。representation任务用的是document和query的对比学习。把最后一层的token给mean pooling(只对word tokens做,不对instruction做)出一个embedding算对比损失,做generation的时候就

2024-06-18 15:21:45 405

原创 SGPT论文阅读笔记

这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别conca

2024-06-18 14:56:06 568 1

原创 LLM2Vec论文阅读笔记

这是篇LLM论文,用decoder-like的LLM去提取embedding文章认为,decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism,其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进,就将pre-trained decoder-only LLM into a universal text encoder:双向注意力,就是取消掉MSA的mask,用全1的mas

2024-06-18 12:49:40 632 1

原创 NV-Embed论文阅读笔记

l×dldr×drOl×d。

2024-06-18 11:13:04 569 1

原创 TWM论文阅读笔记

lzarzaht​ht​rt​γt​zt1​pf3l−1lht​rt​dt​γγγγγt​0γt​γγ0γot​ot​zt​ht​zt​。

2024-06-17 20:16:35 892 1

原创 STORM论文阅读笔记

这是篇NIPS2023的 world model 论文文章提出,WM的误差会在训练过程中积累从而影响policy的训练,向WM中加噪声可以改善这一点。其他的流程和IRIS差不多,差别在以下几点:image encoder,IRIS用的VQVAE, 本文用的是VAE,用VAE的采样方式来生成zt,从而为zt加噪声。sequence model,IRIS用GPT循环输出image的每个token,本文直接用MLP把生成的 ztz_tzt​ 和动作 ata_tat​ 输出成一个token,这样GPT

2024-06-17 17:03:07 902 1

原创 IRIS论文阅读笔记

n的序列了,只需要对这个序列仅需mask prediction即可,即根据17。

2024-06-17 16:13:33 484 1

原创 PromptIR论文阅读笔记

MZUAI和IIAI在NIPS2023上的一篇论文,用prompt来编码degradation,然后用来guide restoration network,使得模型能够泛化到不同degradation types and levels,也就是说是一个模型一次训练能够应对多种degradation的unified model。文章分析,对每种degradation都要train一个模型是compute-intensive and tedious process, and oftentimes impra

2024-05-30 12:19:28 756 2

原创 DiffBIR论文阅读笔记

zt​z0​zt​z0​zt−1​z0​z0​z0​z0​z0​zt​zt−1​z0​Dz0​)WWW。

2024-05-29 17:36:01 1326 1

原创 DiffIR论文阅读笔记

ICCV2023的一篇用diffusion模型做Image Restoration的论文,一作是清华的教授,还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring,作者里甚至有Luc Van Gool大佬。模型分三个部分,一个是CPEN用来提取IPR,一个是DIRformer,用来完成restoration任务,一个是denoising network,用diffusion的方式来预

2024-05-29 12:20:29 806 3

原创 DA-CLIP论文阅读笔记

这是ICLR2024的一篇用VLM做multi-task image restoration的论文首页图看起来就很猛啊,一个unified模型搞定10个任务:文章的贡献点主要是两个,一个是提出一个利用Image Controller,CLIP,cross-attention 和 diffusion restoration network 来实现 unified image restoration 的框架,一个是提出了一个数据集,有10种 degradation types 同时配有 hig-qua

2024-05-25 16:55:06 1138

原创 Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model 论文阅读笔记

这是CVPR2024的一篇论文,通讯作者是中大计院的郑伟诗教授,用diffusion做通用image restoration模型。文章声称有两个创新点,一个是把条件(即LQ图片)concatenate到diffusion target上,从而实现了strong condition guidance;一个是shared distribution term。贡献是仅仅改变了mapping strategy就可以提高在通用任务上的性能,仅仅使用现有大模型1/5的参数量就能达到超过他们的效果。同时为了实际应

2024-05-25 10:33:26 1417 1

原创 RDDM论文阅读笔记

CVPR2024的残差去噪模型。把diffusion 模型的加噪过程分解为残差diffusion和noise diffusion,其中残差diffusion模拟从target image到degraded image的过程,而noise diffusion则是原来的diffusion过程,即从图片到高斯噪声的加噪过程。前者可以看作是对应restoration,后者对应generation。通过这一设计,仅用一个Unet,bs为1,用L1 Loss即可train一个sota的restoration模型。

2024-05-24 22:39:49 1677

原创 DreamerV3阅读笔记

xzzhzsg⋅。

2024-05-24 08:34:07 1283

原创 计算psnr ssim niqe fid mae lpips等指标的代码

【代码】计算psnr ssim niqe fid mae lpips等指标的代码。

2024-04-10 21:02:17 672

原创 KMP算法代码

【代码】KMP算法代码。

2024-03-21 22:10:10 140

原创 A*算法python实现

【代码】A*算法python实现。

2024-03-19 12:47:00 475

原创 JPEG压缩细节

JPEG压缩算法的一些细节

2024-02-20 11:34:39 468

原创 Spatially Adaptive Self-Supervised Learning for Real-World Image Denoising 论文阅读笔记

文章两个模块的动机是,如果噪声具有空间相关性,那么越远的地方具有噪声相关信息的可能性就越小,那么相比blind-spot取相邻像素点导致噪声相关信息干扰,文章提出blind neighborhood,取远一点,孔洞大一点,就减弱了噪声空间相关性导致的影响。LAN的输入还是噪声图片,gt是BNN的输出。但是,BNN的输出丢失了细节信息,所以用上面的公式来对区域进行加权,细节丢失严重的区域,损失的权重较低,也就是鼓励LAN在平坦的区域像BNN一样去噪,在其它区域正常去噪不要模仿BNN。这一点,其实我另一篇。

2023-11-09 19:38:35 901

原创 Masked Image Training for Generalizable Deep Image Denoising 论文阅读笔记

文章做了一个很有意思的动机实验:在非自然图像上训练高斯去噪,然后放到自然图像加高斯噪声上去测试,如果去噪成功,说明忘了学习的是训练集上的高斯噪声的模式,从而可以泛化到具有相同噪声却有不同图像内容的自然图像上。从下图的denoised by swinir可以看出来,确实去噪成功,也证实了网络在这次实验中只是在学习高斯噪声的模式,从而无法泛化到其它的噪声上。如果希望网络训练出来之后能够泛化到各种各样的噪声上,应该让网络学习自然图像是怎么样的而非学习噪声是怎么样的。

2023-11-09 11:37:42 876 1

原创 Empowering Low-Light Image Enhancer through Customized Learnable Priors 论文阅读笔记

ICCV2023 customized low-light image enhancement论文阅读笔记

2023-10-15 12:24:52 1904 3

原创 Learning Continuous Exposure Value Representations for Single-Image HDR Reconstruction 论文阅读笔记

这是国立阳明交通大学、联发科和英伟达合作的一篇ICCV 2023的HDR Reconstruction的论文文章用INR来生成具有连续曝光值的图片,从而能够生成更加多样的LDR图片,而文章发现用更多样的LDR图片训练的网络具有更好的性能,这也是文章的动机。文章说用了INR的思路,其实根本就不是INR,INR的输入是坐标,而这里其实就是把s给repeat成feature map大小concatenate到feature map后面,然后用几个1x1卷积进行处理,美其名曰MLP,又不是1x1卷积就是I

2023-10-14 22:27:30 310

原创 ExposureDiffusion: Learning to Expose for Low-light Image Enhancement论文阅读笔记

评价:本身把diffusion和暗图增强这个任务进行了很好的结合,我应该给出很好的评价的。总而言之是一篇很好的文章,个人认为是目前为止看到的用diffusion model做暗图增强做得算好的了,在用diffusion 的框架进行暗图增强的训练的方向上做了一个理论上比较有说服力的工作。用diffusion模型来进行raw图像暗图增强,同时提出了一个自适应的残差层用来对具有不同信噪比的不同区域采取不同的去噪策略。也是预测的一个soft的mask。文章定义暗图增强的目标为从一张。分别是对正常光照的图像。

2023-10-14 21:52:14 1950

原创 Diff-Retinex: Rethinking Low-light Image Enhancement with A Generative Diffusion Model 论文阅读笔记

这是武汉大学发表在ICCV2023的一篇用diffusion模型来做暗图增强的工作,希望通过diffusion model的生成能力来还原出暗图中丢失的信息,同时用transformer作为retinex model的分解网络前面的transformer模型的损失如下图所示,即常规的重建损失,亮度分量的平滑损失,成对图像的R分量要相同的损失。其中重建损失的第三项是交叉损失,指将暗图和亮图的R对换后的损失,但是具体又不给出表达式,很可疑:前面的transformer模型用的是通道注意力,后面

2023-10-13 17:44:02 2061 2

neighbor2neighbor 代码 debug完,参考

看有几个人问我neighbor2neighbor的代码问题,我直接把我debug好的代码发出来吧

2022-11-22

opencv-4.3.0.zip

最新版本opencv源码

2020-05-13

cmake-3.17.2.tar.gz

最新版本cmake的源码

2020-05-13

facebook开源目标检测框架所用到的R-101预训练的权重文件 R-101.pkl

facebook开源目标检测框架所用到的R-101预训练的backbone,直接跑代码自动下载总是断掉,被墙了,直接去官网下载也很慢,这里下载好了分享

2020-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除