
论文解读
文章平均质量分 94
计算机视觉相关论文,前期主要以GANs相关论文相关的翻译、简介、代码解读
曾小蛙
这个作者很懒,什么都没留下…
展开
-
【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归 ?
从2013-2024 图像生成,文生图经典论文目录原创 2025-01-20 16:52:51 · 1238 阅读 · 0 评论 -
【论文+去背景】24.01.BiRefNet:Bilateral Reference for High-Resolution Dichotomous高分辨率二分图像分割的双边参考 (RMBG背后的算法
基于BiRefNet精细化 图片,视频二分分割(前景背景分割)原创 2024-12-12 21:07:35 · 1493 阅读 · 0 评论 -
【论文+DiT】Sora和SD3背后的主干模型: 扩散Transformer(23.03.DiT:Scalable Diffusion Models with Transformers)
在潜在扩散模型(Latent Diffusion Models, LDMs)框架下构建和基准测试DiT设计空间,我们可以成功地用Transformer替代U-Net骨干。我们进一步表明,DiTs是可扩展的扩散模型架构:网络复杂度(用Gflops衡量)与样本质量(用FID衡量)之间存在强相关性。通过简单地扩大DiT并训练具有高容量骨干(118.6 Gflops)的LDM,我们能够在类别条件的256×256 ImageNet生成基准测试上实现2.27 FID的最先进结果。原创 2024-07-15 15:01:46 · 1540 阅读 · 0 评论 -
【论文+中文文生图】Kolors:快手可图绘画模型实测(24.07.06开源)
Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片) Kolors,这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型(latent diffusion model),通过中英文模型`chatGLM3` (General Language Model, GLM)和由**多模态** **`CogVLM`** 生成的细粒度文本标题。Kolors 在理解复杂语义方面表现出色,特别是涉原创 2024-07-11 12:25:52 · 3894 阅读 · 0 评论 -
【论文】2405.Phased Consistency Model(港中文提出了AI绘画加速模型,一步采样生成图像,支持SD1.5,SDXL)
**扩散模型 (Diffusion Models)**:扩散模型通过`拟合得分函数`来训练,即估计数据分布的梯度**一致性模型 (Consistency Models)**: 通过`拟合ODE(常微分方程)`解来训练。这种模型强制所有轨迹上的点映射到同一个解。**一致性轨迹模型 (Consistency Trajectory Models)**: 一致性轨迹模型通过拟合**任意ODE轨迹**来训练。即轨迹中的任意点对之间强制相同的预测。**逐步一致性模型 (Phased Consistency Mo原创 2024-06-11 10:49:04 · 1738 阅读 · 0 评论 -
【无监督+自然语言】 GPT,BERT, GPT-2,GPT-3 生成式预训练模型方法概述 (Generative Pre-Traning)
【GPT,Bert \GPT-2,GPT-3 论文概述】原创 2024-04-22 19:05:21 · 1635 阅读 · 0 评论 -
【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)
Qwen-VL-7B` 是阿里基于语言模型`Qwen-7B`(LLMs),研发的**大规模视觉语言模型**(Large Vision Language Model, **LVLM**)> Qwen-VL-Chat = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip's `ViT-bigG`) + 位置感知视觉语言适配器(可训练Adapter)+`约15亿`训练数据+`多轮训练`原创 2024-03-26 17:07:25 · 12706 阅读 · 3 评论 -
【视觉语言模型+医学】23.06 LLaVA-Med(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine
23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。原创 2024-03-21 15:21:55 · 2753 阅读 · 0 评论 -
【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning
23.10 LLaVA1.5的改进:1. 结构上,将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器)2. 结构上,视觉特征从线性映射(单个神经元),改进为多层告感知机(MLP)3. 数据上,大量提高数据量,特别是视觉微调 158K到了560K。。4. 训练上,LLaVA1.5可以使用Lora微调原创 2024-03-21 12:10:39 · 3328 阅读 · 0 评论 -
【视觉语言大模型】23.04.LLaVA1.0大语言模型视觉助手(视觉指令调优)GPT4-Vision丐版
LLaVA:LargeLanguageandVisionAssistant 多模态模型。对标的是GPT4-Vison模型,使聊天助手,具备了解析图片的能力。将视觉编码器(vision encoder)和LLM(large language model ,大语言模型)连接起来,原创 2024-03-19 15:20:14 · 2019 阅读 · 0 评论 -
【MLLM+轻量多模态模型】24.02.Bunny-v1.0-2B-zh: 轻量级多模态语言模型 (效果一般)
Bunny-3 是一个轻量级但功能强大的多模态模型系列。它提供多种即插即用的视觉编码器,如 EVA-CLIP、SigLIP 和语言主干网(LLM),包括Phi-1.5、StableLM-2、Qwen1.5 和 Phi-2。为了弥补模型大小的减少,我们通过从更广泛的数据源中精选来构建信息量更大的训练数据。原创 2024-03-18 19:10:08 · 2767 阅读 · 1 评论 -
【论文综述+多模态】腾讯发布的多模态大语言模型(MM-LLM)综述(2024.02)
多模态大语言模型:Multimodal Large Language ModelsMM-LLM =预训练单模态模型( 含LLMs) + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型,特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性在这一领域中,主要关注点是通过多模态预训练(MM PT, Pre-Training)+ 多模态指令调整。原创 2024-02-29 15:43:23 · 6707 阅读 · 0 评论 -
【论文+综述+视觉换衣】视觉虚拟换衣调研:StableVITON、OutfitAnyone、TryOnDiffusion、HR-VITON
虚拟换衣相关原创 2024-02-01 18:33:43 · 4910 阅读 · 4 评论 -
【论文+App试玩+图像到视频】2311.Animate-anyone:上传1张图片为任何人制作动画(用于角色动画的一致且可控的图像到视频合成)(暂未开源)
角色动画(Character Animation)是指在通过驱动信号从静止图像中生成角色视频。图片到视频的难点在于:保持角色详细信息的一致性diffusion模型的生成与可控能力,但是之前的方法效果不稳定。原创 2024-01-24 18:36:19 · 1910 阅读 · 0 评论 -
【论文+视频控制】23.08.DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08在stable video diffusion开源模型)
中国科学技术大学+微软亚洲研究院 在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法。提出了同时(simultaneously )引入文本、图像和轨迹信息,从**语义(semantic)、空间(spatial)和时间角度(temporal perspectives)**原创 2024-01-23 19:12:41 · 1310 阅读 · 0 评论 -
【老照片上色+在线运行】DDColor:阿里黑白图像上色模型(2022.12提出)
DDColor 是最新的 SOTA 图像上色算法,能够对输入的黑白图像生成自然生动的彩色结果。算法使用 UNet 结构的骨干网络和图像解码器分别实现图像特征提取和特征图上采样,并利用 Transformer 结构的颜色解码器完成基于视觉语义的颜色查询,最终聚合输出彩色通道预测结果。原创 2024-01-23 15:40:55 · 2768 阅读 · 3 评论 -
【论文+demo】小红书提出个性化真实人像生成方法(2024.01.15发布,声称效果好于PhotoMaker)
本文的主要内容是介绍了一种名为InstantID的零样本身份保留生成方法,它可以在只有一个面部图像的情况下生成保留身份细节的个性化图像。这种方法通过引入一个轻量级的适配器模块和一个身份网络来实现强大的身份控制和面部细节保留。实验结果表明,InstantID在保持原始模型的文本编辑能力的同时,能够有效地保留身份细节,具有出色的性能和效率。原创 2024-01-18 18:15:54 · 1958 阅读 · 0 评论 -
【论文+在线运行】AnyText:能准确写汉字的AI绘图工具
是一个基于扩散模型的(diffusion-based)`多语言`(multilingual)视觉文字(visual text)`生成和编辑`的模型, 专注于在图像中渲染`准确和连贯`(accurate and coherent)的文本。生成图片同时,在指定位置生成中文、英文、日文等,还可对已有图片进行编辑原创 2024-01-03 17:14:42 · 2847 阅读 · 0 评论 -
【OCR理论】DBNet:任意形状文本检测模型1911.Real-time Scene Text Detection with Differentiable Binarization
检测任意形状的文本,基于实例分割的DBNet算法。DBNet将二值化进行近似,使其可导,融入训练,从而获取更准确的边界,大大降低了后处理的耗时原创 2023-09-27 18:16:59 · 600 阅读 · 0 评论 -
【论文+代码】1706.Transformer简易学习笔记
Transformer解决了RNN的不可并行化问题。最初只是与NLP任务有关目前广泛应用计算机视觉任务中原创 2023-09-06 18:47:14 · 675 阅读 · 0 评论 -
【综述+3D】基于NeRF的三维视觉2023年度进展报告(截止2023.06.10)
NeRF的核心优化手段: 端到端可微渲染(紧致-高效的三维视觉信息表达)从更本质的角度建立了二维图像与三维世界的联系原创 2023-09-04 18:22:57 · 9129 阅读 · 1 评论 -
【论文+公式ocr+代码】2308.Nougat_Neural Optical Understanding for Academic Documents (Meta AI 学术pdf识别)
识别学术文档 `PDF格式`中文字、公式, -但不包含图片 - 输入PDF , - **输出**: `.mmd `的轻量标记语言 - 用 [vscode插件](https://mathpix.com/docs/mathpix-markdown/how-to-mmd-vscode) 编辑打开) - 使用 **web框架**-**React 、NodeJS** 进行渲染和后续显示:[https://github.com/mathpix/ma原创 2023-08-31 16:50:16 · 1097 阅读 · 2 评论 -
【论文】2102.DALL-E: Zero-Shot Text-to-Image Generation(文字生成各种各样充满想象图像的开端)
DALL-E通过120亿参数的模型,在2.5亿图像文本对上训练完成。它是一个两阶段的模型:它的第一个阶段是离散变分自编码器(Discrete Variance Auto-Encoder,dVAE),用于生成图像的token。它的第二个阶段是混合了图像和文本特征的,以Transformer为基础的生成模型原创 2023-08-28 18:13:11 · 960 阅读 · 0 评论 -
【论文简介】PP-OCRv1-v4中文字符识别论文概述
PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。其中文本检测算法选用DB,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器,以应对不同方向的文本识别。超轻量PP-OCRv3系列:检测(3.6M)+ 方向分类器(1.4M)+ 识别(12M)= 17.0M原创 2023-08-10 17:06:41 · 3775 阅读 · 0 评论 -
【论文】基于GANs的图像文字擦除 ——2010.EraseNet: End-to-End Text Removal in the Wild(已开源)
基于GANs的图像文字擦除, 2020年10月发布的.EraseNet: End-to-End Text Removal in the Wild(已开源)原创 2023-07-19 18:20:48 · 2364 阅读 · 2 评论 -
【论文】2307.SDXL:Improving Latent Diffusion Models for High-Resolution Image Synthesis (已开源,有UI)
1.SDXL在用户偏好效果方面似乎大大**超过了v1.5和v2.1,甚至与并列!!2.SDXL很大(2.6B Unet 参) --> 比以前的SD更慢+更多的VRAM3.两个CLIP txt-encoders,而不是一个调节向量串联,拥有更好的文本图片对齐(更听话)4.略有改进的VAE5.处理低分辨率训练图像(以图像尺寸为条件的模型)、随机裁剪(以裁剪位置为条件的模型)和非方形图像(以长宽比为条件的模型)的更好方法。原创 2023-07-10 14:45:20 · 2080 阅读 · 0 评论 -
【图像分割】SAM:Segment Anything论文学习V1
一个重量级的()图像编码器输出一个图像的特征编码,可以通过各种输入提示(a variety of inputprompts)高效地查询,以实现分割目标掩码,并以摊销的实时速度进行处理。对于与多个对象对应的模糊提示,SAM可以输出多个有效的掩码,并附带置信度得分。备注(·图像嵌入 image embedding是指将图像转换为固定长度高纬向量表示的过程。它是通过将图像输入到深度神经网络中的图像编码器(imageencoder)来实现的。原创 2023-05-30 12:33:42 · 1816 阅读 · 0 评论 -
【论文简介】DragGAN:Interactive Point-based Manipulation on the Generative Image Manifold (6月即将开源)
满足用户需求的视觉内容合成通常需要对生成对象的姿势(pose)、形状(shape)、表情(expression)和布局(layout)具备灵活且精确的可控性。现有方法通过手动标注的训练数据或先前的3D模型来实现对生成对抗网络(GANs)的可控性,但这往往缺乏灵活性、精确性和普适性。在本研究中,我们探索了一种强大但较少被探索的控制GANs的方式,即以用户交互的方式“拖动”图像中的任意点,精确地达到目标点,如图1所示。原创 2023-05-29 18:14:13 · 515 阅读 · 2 评论 -
【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models
SD主体结构如下图所示,主要包括三个模型:autoencoder:encoder将图像压缩到latent空间,而decoder将latent解码为图像;CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition;UNet:扩散模型的主体,用来实现文本引导下的latent生成。原创 2022-10-31 18:17:33 · 46613 阅读 · 0 评论 -
【论文翻译】InsetGAN :基于多个stylegan2-ada生成器拼接的全身人像生成(2203.InsetGAN for Full-Body Image Generation)
不使用单个GAN对复杂的域进行建模,我们提出一种新的方法结合多个预先训练过的GAN,其中一个生成一个总体画布(如人体)和一组专门的GAN,或插入(inset),关注不同的部分(例如,脸、鞋子),这些部分可以无缝地插入到总体的画布。我们将这个问题建模为共同探索(jointly exploring)各自的潜在空间(respective latent spaces),这样生成的图像就可以被组合起来,通过插入来自专门的生成器(specialized generators)的部分到全局画布上(global can原创 2022-07-31 15:07:05 · 2434 阅读 · 0 评论 -
【论文简介】2204.VQGAN-CLIP(已开源):Open Domain Image Generation and Editing with Natural Language Guidance
从`开放域`(open domain)`文本提示`(text prompts)中`生成和编辑图像`是一项具有挑战性的任务,迄今为止(heretofore)一直需要昂贵的和经过专门训练的模型。- 我们演示了一种针对这两种任务的新方法,该方法能够通过使用`多模态编码器` (multimodal encoder) 来指导图像生成,在没有任何训练的情况下,从具有显著语义复杂度的文本提示中生成高视觉质量的图像- 我们在各种任务上演示了如何使用CLIP[37]来指导VQGAN[11]产生比之前更高的视觉质量输出原创 2022-05-31 12:14:29 · 3086 阅读 · 0 评论 -
【论文简介】CLIP:图像与自然语言配对预训练可迁移模型:Learning Transferable Visual Models From Natural Language Supervision
CLIP( Contrastive Language–Image Pre-training)基于对比学习的语言-图像预训练)建立在零样本迁移(zero-shot transfer)、自然语言监督学习( natural language supervision, ) 和多模态学习方面的大量工作之上。CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量数据训练这些模型,然后训练好的模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT、GPT原创 2022-05-30 15:18:30 · 3476 阅读 · 0 评论 -
【论文简介】CollageGAN: Collaging Class-specific GANs for Semantic Image Synthesis(用于语义图像合成的特定类拼贴GANs)
用于语义图像合成的拼贴特定类GANs(未开源)图1:语义条件下高分辨率的图像生成(左上角黄色插图)。我们的基本模型(第1列)比spade(第4-5列)产生更现实的结果。我们通过使用特定于类的生成器来生成前景对象或部件,并将它们组合在(compose them on)由基本模型生成的图像上(已基本结果作为输入,到特定类别GAN),从而进一步提高了结果的质量。第二列的分割图(蓝色插图)显示了被我们的gan库修改的部分,放大的结果显示在每个图像旁边项目主页:https://yuheng-li.github原创 2022-04-22 16:16:27 · 3803 阅读 · 0 评论