paper阅读笔记
文章平均质量分 74
paper阅读笔记
emergency_rose
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[InternVL] Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
1)用TFS的方式对齐大规模的视觉编码器与LLM2)noisy数据用于对比学习,高质量数据用于生成式学习。原创 2025-05-06 13:25:36 · 944 阅读 · 0 评论 -
[Qwen-VL] A Versatile Vision-Language Model forUnderstanding, Localization, Text Reading, and Beyond
3)多轮对话通过对齐image-caption-box,还可以实现:通过训练时使用任意组合的图像-文本数据,可以:6)支持多图像输入通过训练时使用大量的中文和英文数据,可以:7)支持多语言转换。原创 2025-04-24 20:49:02 · 1194 阅读 · 0 评论 -
[LLaVA] Visual Instruction Tuning
1)用language-only GPT-4从图像-文本对中生成多模态language-image指令微调数据2)提出Large Language and Vision Assistant(LLaVA)框架,端到端的训练了连接vision encoder和LLM的大型多模态模型,用于图像和语言理解3)构建了两个评估benchmark。原创 2025-04-23 17:38:15 · 502 阅读 · 0 评论 -
[iBOT] Image BERT Pre-Training with Online Tokenizer
探索visual tokenizer编码下的MIM(Masked Image Modeling)原创 2024-09-05 19:14:26 · 828 阅读 · 0 评论 -
[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers
探索基于contrastive/Siamese范式(而非masked auto-encoding范式)和ViT结构(而非卷积网络)的自监督学习。原创 2024-09-04 17:14:16 · 575 阅读 · 0 评论 -
[SimCLR v2] Big Self-Supervised Models are Strong Semi-Supervised Learners
借助无监督预训练来提升半监督学习的效果。原创 2024-08-29 20:40:34 · 451 阅读 · 0 评论 -
[MOCO v2] Improved Baselines with Momentum Contrastive Learning
结合SimCLR和MoCo,实现SoTA。原创 2024-08-28 18:55:23 · 283 阅读 · 0 评论 -
[SimCLR] A Simple Framework for Contrastive Learning of Visual Representations
无监督对比学习,高效提取视觉特征。原创 2024-08-28 16:42:48 · 462 阅读 · 0 评论 -
[MOCO] Momentum Contrast for Unsupervised Visual Representation Learning
无监督表示学习在自然图像领域已经很成功,因为语言任务有离散的信号空间(words, sub-word units等),便于构建tokenized字典现有的无监督视觉表示学习方法可以看作是构建动态字典,字典的“keys”则是从数据(images or patches)中采样得到的,并用编码网络来代表构建的字典需要满足large和consistent as they evolve during training这两个条件。原创 2024-08-22 20:12:00 · 859 阅读 · 0 评论 -
[MAE] Masked Autoencoders Are Scalable Vision Learners
NLP领域的自监督预训练非常成功,CV领域可以参考其masked autoencoding方法。主要挑战有:1)CNN不会直接用mask tokens或者positional embeddings,而是在规则网格上运算 -> Vision Transformers (ViT)2)Language是人为创造的,在语义和信息上非常密集,即便只训练模型预测一个句子中的个别缺失的单词,也能学到有用的信息;原创 2024-08-09 20:26:48 · 533 阅读 · 0 评论 -
[ViT] An Image is worth 16x16 words: Transformers for image recognition at scale
用纯transformer结构的网络来进行图像分类任务。原创 2024-07-18 16:50:04 · 360 阅读 · 0 评论 -
[transformer] Attention is all you need
提出一种新的网络结构,不用CNN或者RNN,只基于self-attention。原创 2024-07-16 18:44:08 · 421 阅读 · 0 评论 -
[DiT] Scalable Diffusion Models with Transformers
用transformer来替代U-Net backbone,提升生成效果。原创 2024-07-12 17:41:57 · 710 阅读 · 0 评论 -
[ControlNet] Adding Conditional Control to Text-to-Image Diffusion Models
让预训练好的大型DDPM模型支持额外的输入条件(如Canny edges、Hough lines、user scribbles、segmentation maps、human key points、shape normals、depths等)不同于image-to-image translation致力于学习不同domain之间的映射,ContrlNet旨在用task-specific condition来控制扩散模型。原创 2024-07-08 16:49:31 · 530 阅读 · 0 评论 -
[Classifier-Guided-Expand] More Control for Free! Image Synthesis with Semantic Diffusion Guidance
过去的text-to-image生成方法需要image-caption对进行训练,无法用在没有text annotation的数据集上本文用一个统一的框架,可以选择用reference image / language / language + image指导图像生成模型。原创 2024-07-03 18:35:48 · 326 阅读 · 0 评论 -
[Imagen] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
对super-resolution增加guidance weight可以提高image-text alignment,但是破坏图像逼真度,得到高饱和度和不自然的图像,因为高guidance weights会导致x-prediction超过[-1, 1]的范围,导致训练集和测试集之间出现mismatch。1)用于评估image fidelity和image-text alignment(e.g. 渲染不同颜色,物品数量,空间关系,场景中的文本,不同物品之间不寻常的互动等)至[-s, s]之间,然后再除以s。原创 2024-07-02 19:30:46 · 563 阅读 · 0 评论 -
[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents
CLIP + DDPM进行text-to-image生成。原创 2024-06-25 17:37:56 · 1160 阅读 · 0 评论 -
[GLIDE] Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
综合所有的text prompts来生成photorealistic images。原创 2024-06-13 20:00:13 · 522 阅读 · 0 评论 -
[Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models
DM的train和infer均需大量的时间和显存。原创 2024-06-12 15:33:30 · 1543 阅读 · 0 评论 -
[CLIP] Learning Transferable Visual Models From Natural Language Supervision
通过在4亿图像/文本对上训练文字和图片的匹配关系来预训练网络,可以学习到SOTA的图像特征。预训练模型可以用于下游任务的零样本学习。原创 2024-06-07 19:55:22 · 641 阅读 · 0 评论 -
[Classifier-Free] Classifier-Free Diffusion Guidance
1)Classifier Guidance的问题a)需要额外训练一个分类器(要基于噪声图像训练,因此无法用现成的预训练分类器),使得扩散模型的训练pipeline更加复杂2)此外,像GAN和基于flow的模型,可以通过在采样时降低方差或者噪声输入的范围来实现truncation或者低温采样,从而平衡生成结果的variaty和fidelity。而在diffusion的reverse过程中对模型score进行缩放或者降低高斯噪声的方差则会生成模糊和低质量的图像。原创 2024-06-05 17:21:52 · 1127 阅读 · 0 评论 -
[IDDPM] Improved Denoising Diffusion Probabilistic Models
对DDPM进行优化,重点优化log-likelihood2)减少采样步数,加速infer3)在high-diversity数据集,如imagenet上,获得了良好的结果。原创 2024-04-19 13:25:41 · 1198 阅读 · 0 评论 -
[Classifier-Guided] Diffusion Models Beat GANs on Image Synthesis
针对diffusion models不如GAN的原因进行改进:1)充分探索网络结构2)在diversity和fidelity之间进行trade off。原创 2024-04-11 17:52:18 · 691 阅读 · 0 评论 -
[SDE] Score-Based Generative Modeling through Stochastic Differential Equations
扩散过程随时间进行(连续化)time-dependent神经网络估计score,用SDE求解反向生成过程。原创 2024-04-10 14:41:36 · 1173 阅读 · 0 评论 -
[DDIM] Denoising Diffusion Implicit Models
DDPM生成图像需要模拟Markov链,因此要经过多轮推理(因为条件概率仅仅与系统的当前状态相关),且推理过程是sequentially而不是parallel的DDIM在不改变DDPM训练的基础上,减少了infer次数,在极大地增加了采样效率的同时,几乎不影响采样效果。原创 2024-04-08 18:43:15 · 609 阅读 · 0 评论 -
[VAE] Auto-Encoding Variational Bayes
直接看paper看得云里雾里,一语道破天机(建议从30min左右开始看GAN到Diffusion的串讲)。VAE的核心思路就是下面:做生成,其实就是从随机向量(z)到目标图像(x)的过程,那么z就是先验,x就是后验。原创 2023-05-12 19:12:17 · 785 阅读 · 0 评论 -
[WGAN] Wasserstein GAN
文章用了大篇幅的理论证明了概率分布在EM distance下是收敛的,而在其他几个distance下是不收敛的。GAN的训练是delicate和unstable的。需要定义一个连续的距离。4)Earth-Mover(EM)距离 / Wasserstein-1。,来衡量模型distribution和真实distribution之间的差异。3)显著减少了模式坍塌现象。1)无须平衡D和G的训练。2)无须慎重设计网络结构。原创 2023-05-22 15:26:58 · 508 阅读 · 0 评论 -
[DDPM] Denoising Diffusion Probabilistic Models
直接看paper云里雾里,一些推荐的讲解: The Annotated Diffusion Model 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 生成扩散模型漫谈(二):DDPM = 自回归式VAE 生成扩散模型漫谈(三):DDPM = 贝叶斯 + 去噪 已知确定的forward / diffusion过程:训练图像,逐步加噪声,最终得到高斯噪声图像 求解reverse过程:采样高斯噪声图像,逐步去噪,最终得到生原创 2023-07-25 21:16:56 · 414 阅读 · 0 评论 -
生成扩散模型理论框架
即求解得分函数(Score function)。得分函数是数据的log密度的梯度(the gradient of the log-density with respect to the data vector),即。DDPM的一般化形式。DDIM的一般化形式。原创 2023-10-20 15:46:26 · 299 阅读 · 0 评论 -
[StyleGAN] A Style-Based Generator Architecture for Generative Adversarial Networks
解耦出了生成网络中style的影响因素,并可以利用这一点实现不同生成图像的风格融合注意:该网络还是从噪声生成随机图像,只是可以把已经生成的随机图像的latent code相融合,得到介于两者之间的新类型图像;而不是根据手头的图像来实现风格融合。原创 2023-06-08 16:42:06 · 271 阅读 · 0 评论 -
[BigGAN] Large Scale GAN Training for High Fidelity Natural Image Synthesis
在大型数据集上训练class-conditional GAN,并探索相关的trick。原创 2023-06-06 20:52:23 · 829 阅读 · 0 评论 -
图像生成常用评估指标
Turkers were presented with a series of trials that pitted a “real” image against a “fake” image generated by our algorithm Train classifiers on real images. Score synthesized photos by the classification accuracy against the labels these photos wer原创 2023-05-27 18:44:37 · 1751 阅读 · 0 评论 -
[CycleGAN] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
以往的image-to-image translation需要有aligned image pairs。本文设计的方法可以用于unpaired(只提供image sets X和Y)风格转换。传统的GAN虽然也可以实现X -> Y的转换,但:1)无法保证生成的y和x是对应关系(same underlying scene)2)可能出现mode collapse。原创 2023-05-27 17:54:53 · 136 阅读 · 0 评论 -
[cGAN] Conditional Generative Adversarial Nets
unconditioned GAN生成的图像模式是不可控的。原创 2023-05-25 15:13:41 · 118 阅读 · 0 评论 -
[SRGAN] Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
过去的super-resolution (SR)算法通过最小化mean squared error (MSE)来进行优化,尽管可以提高peak signal-to-noise ratio (PSNR),但pixel-wise的图像监督无法捕捉到更精细的纹理细节。原创 2023-05-19 11:52:35 · 207 阅读 · 0 评论 -
[DCGAN] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
GAN的训练很不稳定,很容易得到毫无意义的结果。原创 2023-05-18 22:07:43 · 216 阅读 · 0 评论 -
[Instance Normalization] The Missing Ingredient for Fast Stylization
instance normalization原创 2022-07-07 20:13:33 · 1123 阅读 · 0 评论 -
[ConvLSTM] Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting阅读笔记
1、主要创新 相比于FC-LSTM,引入卷积层,1)可以充分利用空间关联,2)能够输出图像序列,3)减少参数冗余2、网络1)输入时空序列,特征数目=P,图像大小=MxN,即 2)输出 3)网络设计 i: input ga...原创 2022-04-12 00:28:52 · 3383 阅读 · 0 评论 -
[pix2pixHD] High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs阅读笔记
blabla原创 2022-03-09 19:27:27 · 319 阅读 · 0 评论 -
[FUNIT] Few-Shot Unsupervised Image-to-Image Translation
1、目的无监督图像转换:source类 -> target类;其中target类的样本很少,只在test时用到;训练source类 -> 多个another类,其中another类的样本也较少;==> 通用的外观提取模型2、原理/基础1)人看到新物体(target class),可以基于以往的知识(trained model),脑补出新物体的不同姿势(generated picture)...原创 2022-03-07 17:24:17 · 620 阅读 · 0 评论
分享