用文本作为指引去进行视频inpainting

偷电线

已于 2024-07-21 23:59:20 修改

阅读量303

点赞数 1

CC 4.0 BY-SA版权

文章标签： python

于 2024-07-21 23:54:01 首次发布

本文链接：https://blog.youkuaiyun.com/where_is_horse/article/details/89892003

https://github.com/zibojia/COCOCO

1. 支持T2I LoRA在mask区域进行定制化。

2. 更多attention层，效果更好。

3. 更好的标注，使得模型具有更精细的补全效果。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

偷电线

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

3D、扩散模型、GAN、StyleGAN、MAE.等【face-swapping方法汇总】

zik的博客

05-25

4055

face-swapping是将一张脸的身份（肤色、面部皮肤、眉毛、眼睛、鼻子、嘴唇和嘴巴等）与另一张脸的非外观属性（表情、头部姿势、光照、图像分辨率、注释方向、头发、眼镜、耳朵、耳环、颈部和背景等非内部人脸区域）相结合，生成合成人脸。

ComfyUI | FLUX-ControlNet，FLUX-LoRA和FLUX-IPAdapter等工作流【附下载】

Vampire_2017的博客

11-03

2332

FLUX.1是由Black Forest Labs研发的前沿AI模型，它正在重塑我们依据文本描述创建图像的模式。FLUX.1能够生成与输入提示高度契合的图像，这些图像细节惊人、复杂精妙，从而使其在众多模型中脱颖而出。FLUX.1成功的奥秘在于其独特的混合架构，这种架构融合了不同类型的Transforms，并且有多达120亿的参数作为强大支撑。这一架构使得FLUX.1不仅能够生成视觉上极具吸引力的图像，还能以令人惊叹的精准度对文本描述进行准确呈现。

参与评论您还未登录，请先登录后发表或查看评论

【Github上有趣的项目】Deep-Flow-Guided-Video-Inpainting 从视频中抹去一个人（或消除马赛克）

Dontla的博客

09-24

3440

GitHub 上有哪些有趣的关于 NLP 或者 DL 的项目？ - 量子位的回答 - 知乎 Deep-Flow-Guided-Video-Inpainting 文章目录直接使用[Docker镜像](https://blog.youkuaiyun.com/Dontla/article/details/108767693)来运行我们的项目下载安装直接使用Docker镜像来运行我们的项目下载安装下载frames和masks文件夹，然后将其放在demo文件夹中。下载文件FlowNet2_checkpoint.pth.t

从DDPM到GLIDE：基于扩散模型的图像生成算法进展

shenlanshenyanai的博客

12-28

6079

前几天，OpenAI在Arxiv上挂出来了他们最新最强的文本-图像生成GLIDE [1]，如头图所示，GLIDE能生成非常真实的结果。GLIDE并非基于对抗生成网络或是VQ-VAE类模型所设计，而是采用了一种新的图像生成范式 - 扩散模型（Diffusion Model）。作为一种新的生成模型范式，扩散模型有着和GAN不同且有趣的很多特质。这篇笔记梳理了过去一年多在扩散模型方向的一些主要工作，希望可以帮助读者更好的理解扩散模型以及GLIDE。在扩散模型相关论文中普遍有很多公式推导，笔记中基本省略了推导，

文字生成图像！GAN生成对抗网络相关论文大汇总

idol24的博客

09-21

1973

点击上方“机器学习与生成对抗网络”，关注"星标"获取有趣、好玩的前沿干货！仅由文字，如何让神经网络自动生成描述对应的图像？very interesting啊，看看GAN这...

Boosting up Scene Text Detectors with Guided CNN 论文翻译解读

zx_good_night的博客

03-26

479

引导CNN增强场景文本检测器摘要：深层卷积神经网络技术在文本检测方面取得了很大的成功。现有的大多数方法都试图通过复杂的网络设计来提高精度，而很少关注速度。在本文中，我们提出了一个通用的文本检测框架，称为引导CNN，以同时实现这两个目标。该模型由一个引导子网络和一个初级文本检测器组成，前者从输入图像中学习...

2019-2021 文本生成图片 Text To Image（T2I） Synthesis 论文整理

qq_26136211的博客

03-25

4033

参考：文本生成图像！GAN生成对抗网络相关论文大汇总 A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis 介绍了关于GAN生成对抗网络的相关Text-to-Image论文，将其分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类，

【扩散模型】8、GLIDE | 文本指引的图像生成和编辑

呆呆的猫的博客

12-20

3067

本文主要介绍扩散模型 GLIDE

文档：Text Segmentation and Image Inpainting 开源项目指南

gitblog_00216的博客

08-31

357

文档：Text Segmentation and Image Inpainting 开源项目指南项目概述此开源项目旨在简化图像中文字的移除流程，特别地对于漫画翻译者而言，可大幅减少手动擦除日文等文字的时间。通过结合文本分割和图像修复技术，实现了一个高效的工作流，涵盖从检测并生成文字掩模到应用图像修复算法以减轻颜色不一致性全过程。项目目录结构及介绍以下是Text_Segmentation_I...

TextDiffuser生成质量：文本图像生成效果评估

gitblog_00257的博客

09-03

594

在AI图像生成领域，文本渲染一直是一个极具挑战性的任务。传统的扩散模型如Stable Diffusion虽然在图像质量方面表现出色，但在生成准确、可读的文本方面往往力不从心。TextDiffuser作为微软研发的专门针对文本渲染的扩散模型，通过创新的两阶段框架解决了这一痛点。本文将深入探讨TextDiffuser的生成质量评估体系，从多维度分析其在文本图像生成任务中的表现，并提供实用的评估指南...

视频人像抠图论文阅读

balabalabiubiu的博客

03-12

1825

视频人像抠图论文阅读1.2.合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 1. 2. 合理的创建标题，有助于目录的生成如何改变文本的样式强调文本强调文本加粗文本加粗文本标记文本删除文本引用文本 H2O is是液体。 2

AIGC发展方向和前景

qq_40500099的博客

06-24

3189

针对AIGC的背景，技术，应用领域，挑战和未来趋势进行了汇总，帮助人们寻找AI的财富增长点和致富方向。

stable diffusion segment anything 按章

02-19

接着，对于每一个由 SAM 自动生成出来的分段结果，都执行一次基于文本提示和视觉指引相结合的图像修复操作。 #### 结合时间一致性优化 (针对视频场景) 如果应用场景扩展至视频领域，则需考虑跨帧之间的一致性和连贯...

NLP 新范式 Transformer 模型在计算机视觉领域的应用如何？

Python4857的博客

12-11

1465

编者按：Transformer 模型在自然语言处理（NLP）领域已然成为一个新范式，如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉（CV）领域。那么未来，Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？今后的研究思路又有哪些？微软亚洲研究院多媒体搜索与挖掘组的研究员们基于 Vision Transformer 模型在图像和视频理解领域的最新工作，可能会带给你一些新的理解。作为一个由自注意力机制组成的网络结构，Transformer.

Java 和 Python 的执行方式有很大不同——Android学习

ban102055的博客

09-04

1519

特性PythonJava执行方式(解释执行)->(先编译后执行)是否需要编译否是环境需要 Python 解释器需要JDK(包含javac和java在Android Studio中不适用全自动，点击“Run”即可给你的建议：为了学习 Android 开发：直接使用。不要担心命令行，IDE 会帮你处理一切。专注于编写代码和理解 Android 的概念（如 Activity、生命周期）。为了单纯学习 Java 语法。

【TXT】用 Python 实现超漂亮的 HTML 两栏文本对比工具（支持行内差异高亮）

最新发布

采菊东篱下，Python满乾坤！

09-05

821

这个小工具虽然只有 300 多行代码，但却融合了文本处理、算法匹配、前端渲染和用户体验设计。它不仅实用，还能作为学习difflib和 HTML/CSS 布局的优秀范例。✅一句话总结：让文本对比不再枯燥，让差异“看得见”！也欢迎在评论区提出你的优化想法 😊。

Java 枚举通用接口设计与实现

sunnyday0426的博客

09-04

444

本文介绍了Java中枚举类型的通用接口设计方法。通过定义BaseEnumInterface接口，可以为枚举添加code和desc属性，并提供统一的静态操作方法，如根据code获取枚举实例、获取所有编码列表、验证编码有效性等。以GenderEnum为例，展示了枚举类如何实现该接口，并演示了通过接口提供的通用方法进行便捷操作。这种设计模式提高了代码复用性，使枚举操作更加规范统一。

【传奇开心果系列】Flet框架结合pillow实现的英文文字倒映特效自定义模板特色和实现原理深度解析

jackchuanqi的博客

08-30

1238

本文介绍了基于Flet框架和Pillow库实现的英文文字倒映特效模板。该模板支持自定义字体、文字颜色、背景颜色和倒影间距，通过透明度渐变处理实现逼真的倒影效果。适用于UI设计、广告宣传、创意设计等多种场景，具有灵活的参数配置和错误处理机制。项目依赖Flet和Pillow库，需要MISTRAL.TTF字体文件支持，提供了完整的安装说明和项目结构建议。该特效模板可帮助开发者快速创建具有视觉冲击力的文字倒影效果。

用python和everything自动检查电脑是否存在关键文件脚本

09-03

913

核心功能是通过程序自动启动Everything、定位搜索框、输入指定关键字执行搜索，并将每次搜索结果的窗口界面截图保存，最终自动关闭Everything，实现“搜索-截图”全流程无人干预，适用于批量验证搜索结果、记录搜索历史等场景。向Everything窗口发送“关闭”消息（），模拟手动点击关闭按钮，优雅终止程序。函数实现稳定截图，核心是用。所有关键字处理完成后，通过。该Python代码是一款。

文本引导的stable diffusion inpainting 微调

06-07

### 文本引导的 Stable Diffusion Inpainting 微调教程与代码示例 Stable Diffusion 是一种强大的文本到图像生成模型，其 Inpainting 功能允许用户通过文本引导对图像进行修复或编辑。以下是一个简要的教程和代码示例，帮助用户了解如何进行文本引导的 Stable Diffusion Inpainting 微调。 #### 1. 环境准备在开始微调之前，需要确保安装了必要的依赖项。可以使用以下代码来设置环境： ```bash pip install torch torchvision transformers diffusers accelerate ``` #### 2. 数据准备为了进行 Inpainting 微调，需要准备带有蒙版的图像数据集。每张图像应与其对应的蒙版文件配对。蒙版文件用于指定需要修复或编辑的区域。可以通过以下方式生成蒙版： - 使用图像编辑工具（如 Photoshop 或 GIMP）手动创建蒙版。 - 编写脚本自动生成蒙版[^3]。 #### 3. 加载预训练模型加载 Stable Diffusion 的预训练权重是微调的第一步。以下代码展示了如何加载模型： ```python from diffusers import StableDiffusionInpaintPipeline import torch # 加载预训练模型 model_id = "runwayml/stable-diffusion-inpainting" pipe = StableDiffusionInpaintPipeline.from_pretrained(model_id, torch_dtype=torch.float16) pipe = pipe.to("cuda") ``` #### 4. 微调模型微调过程涉及定义损失函数、优化器以及训练循环。以下是一个简单的微调代码示例： ```python from diffusers import DDPMScheduler, UNet2DConditionModel from transformers import CLIPTextModel, CLIPTokenizer from datasets import load_dataset import torch.nn as nn import torch.optim as optim # 加载 tokenizer 和 text encoder tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14") text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14") # 定义 UNet 模型 unet = UNet2DConditionModel.from_pretrained(model_id, subfolder="unet") # 定义噪声调度器 noise_scheduler = DDPMScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000) # 定义优化器 optimizer = optim.AdamW(unet.parameters(), lr=1e-5) # 训练循环 def train_step(batch): # 提取输入数据 pixel_values = batch["pixel_values"].to("cuda") mask = batch["mask"].to("cuda") input_ids = batch["input_ids"].to("cuda") # 生成噪声 noise = torch.randn_like(pixel_values) bsz = pixel_values.shape[0] timesteps = torch.randint(0, noise_scheduler.config.num_train_timesteps, (bsz,), device=pixel_values.device).long() # 添加噪声 noisy_images = noise_scheduler.add_noise(pixel_values, noise, timesteps) # 获取文本嵌入 with torch.no_grad(): encoder_hidden_states = text_encoder(input_ids)[0] # 预测噪声 noise_pred = unet(noisy_images, timesteps, encoder_hidden_states, mask).sample # 计算损失 loss = nn.functional.mse_loss(noise_pred, noise) # 反向传播 loss.backward() optimizer.step() optimizer.zero_grad() return loss.item() ``` #### 5. 测试模型完成微调后，可以使用测试数据验证模型的效果。以下代码展示了如何使用微调后的模型进行 Inpainting： ```python from PIL import Image import numpy as np # 加载测试图像和蒙版 image = Image.open("test_image.png").convert("RGB") mask = Image.open("test_mask.png").convert("L") # 转换为 PyTorch 张量 init_image = pipe.prepare_image(image) mask = pipe.prepare_mask(mask) # 生成修复图像 prompt = "A beautiful landscape with mountains and a lake" result = pipe(prompt=prompt, image=init_image, mask_image=mask).images[0] # 保存结果 result.save("inpainting_result.png") ``` #### 6. 参数调整微调过程中可能需要调整一些关键参数以获得