
多模态
文章平均质量分 73
莫余
无论如何,都要去试一试,哪怕不能证明我可以!
展开
-
Transparent Image Layer Diffusion using Latent Transparency
在这种情况下,通过专注于前景和背景的LoRAs,模型被训练来区分和生成多层次的图像,其中每一层都可以独立地表示图像的不同部分(如前景和背景),并可能包含自己的透明度。比如,用户可以独立调整每个图层的透明度,或者将几个图层组合起来形成一个完整的场景,这个场景能够根据文本提示精确地展现出细节丰富的图像,如乱发的细节和火焰的半透明效果。概念,扩展了现有潜在扩散模型的能力,使其能够生成具有高质量透明度的图像,这对于图像生成、图形设计和许多其他应用领域都是一项重要的进步。对于多层模型的训练(b),情况则有所不同。原创 2024-03-12 13:56:59 · 1539 阅读 · 0 评论 -
Could not load library libcudnn_ops_infer.so.8.
在此路径下查看是否有libcudnn_ops_infer.so.8文件。如果存在的话,直接添加下环境变量即可。在你的虚拟环境中,如。原创 2024-02-26 09:44:45 · 3040 阅读 · 4 评论 -
【CCEdit】通过扩散模型进行创意且可控的视频编辑
CCEdit是一个基于扩散模型的多功能视频编辑框架,它通过一个创新的三叉戟网络结构,分别控制视频的结构和外观,从而实现精确和创造性的编辑能力。它是整个网络的基础,确保在编辑时,视频的基本结构不会被破坏,从而保持了视频内容的连贯性和真实性。:在初始运行中处理了第一组"L + 1"帧之后,接下来的运行会将上一次运行的最后一帧作为新的起始帧,这样做是为了在视频的连续帧之间保持编辑效果的连贯性。在训练期间,我们固定主分支的空间权重和结构分支的权重,同时更新主分支中新加入的时间层的参数,以及外观分支的权重。原创 2024-02-20 11:14:17 · 1383 阅读 · 0 评论 -
Exporting the operator ‘aten::scaled_dot_product_attention‘ to ONNX opset version 14 is not support.
我将 pytorch从2.0 版本降至 pytorch1.13 版本之后,就可以运行了。更换版本也未能解决,正要写算子进行替换时,不小心重装了另一个版本的pytorch。原创 2023-12-01 10:45:51 · 3307 阅读 · 0 评论 -
【Stable Fast 报错】ImportError: dynamic module does not define module export function (PyInit__C)
本来想着使用 stable-fast 来加速文生图,结果报了ImportError。报错的意思是:动态模块没有被定义和导出,我不清楚是否将这个文件复制到某处就可以?暂未解决,解决之后会更新。如若有人遇到相似问题,可评论区留言。当我在env中打开sfast的文件夹时,发现有。原创 2023-11-05 21:58:41 · 675 阅读 · 1 评论 -
【Datawhale】扩散模型学习笔记 第一次打卡
如果模型在高噪声水平下的预测不够理想,可以进行采样以生成更好的图像。你可以从完全随机的噪声图像开始,然后逐渐接近模型的预测。这意味着你可以检查模型的预测结果,然后只向预测的方向移动一小步,比如向预测值移动20%。在这个示范中,我们将构建一个简化版本的UNet,它接收单通道图像,并通过卷积层在下行路径(down_layers)和上行路径(up_layers)之间具有残差连接。我们使用均方误差(MSE)来比较模型的预测与真实值,然后使用反向传播算法来更新模型的参数。在模型训练过程中,模型的任务是将损坏的输入。原创 2023-10-20 21:40:04 · 464 阅读 · 0 评论 -
解决报错:RuntimeError: “LayerNormKernelImpl“ not implemented for ‘Half‘
使用更高精度的数据类型:如果可能的话,尝试使用更高精度的数据类型,如’Float’(32位浮点数)或’Double’(64位浮点数)如果是在部署项目中遇到此error。例如在Stable-Diffusion-webui中,可以添加参数 --no-half。一般发生在模型推理过程中,由于精度导致的报错,一些硬件和框架对于半精度操作的支持可能有限,导致无法执行特定的操作。将模型迁移到GPU上进行。原创 2023-10-18 08:22:30 · 5122 阅读 · 0 评论 -
模型部署踩坑(持续更新ing)
需要使用NVIDIA提供的benchmark tools进行profiling。可以使用nsys, nvprof, dlprof, Nsight这些工具。使用TensorRT得到推理引擎并实现infer只是优化的第一步。有的时候TensorRT并不会分配Tensor Core。TensorRT可以对模型做适当的优化,但是有上限。分析模型中多余的memory access在哪里。,因为FLOPs只是模型计算大小的单位。分析模型可进一步优化的地方在哪里。原创 2023-10-16 12:45:03 · 292 阅读 · 0 评论 -
【算子融合】Conv+BatchNorm+Relu
本文以公式推导的形式,介绍了为啥Conv+BatchNorm+Relu会和单纯的Conv消耗的时间是一样的。实际上,Conv+BatchNorm+Relu也可以推导成Conv的形式。仅仅是这个简单的计算公式,可随意进行添加。原创 2023-10-13 09:59:30 · 1704 阅读 · 0 评论 -
解决TensorRT加速推理SDXL出现黑图问题
(半精度):它使用更短的位数来表示浮点数,因此可以表示的数值范围相对较小,精度较低。在TensorRT进行编译的时候,会首先找到torch models,将torch models的vae_decoder的配置文件和权重修改为。在使用稳定扩散(Stable Diffusion)生成图片时,选择不同的数据类型可以影响生成的结果。(单精度):它使用更多的位数,可以表示更广范围的数值并提供更高的精度。的数值范围和精度不足有关,导致计算过程中的数值溢出或不稳定性。时,数值稳定性更高,能够处理较大的数值范围。原创 2023-10-12 14:03:41 · 3575 阅读 · 1 评论 -
【MVDiffusion】完美复刻场景,可多视图设计的生成式模型
对于目标图像分支,将一个由零值像素组成的黑色图像与一个由零组成的掩码连接在一起,然后使用相同的零卷积操作来降采样图像,使其与UNet块的特征图大小相匹配。这个过程的目的与条件图像分支类似,根据掩码的值来执行不同的生成任务,其中掩码为1时生成条件图像,为0时生成目标图像。在目标图像的UNet分支中,我们将一个由零值像素组成的黑色图像与一个由零组成的掩码连接在一起作为输入,因此需要修复模型基于文本条件和与条件图像的对应关系生成全新的图像。一样,它以两个连续的关键帧图像作为附加条件,生成中间的图像。原创 2023-10-07 22:48:55 · 1466 阅读 · 6 评论 -
【RealFill】一种新的用于图像补全的生成式模型
给定左边的参考图像,RealFill不仅能够去除目标图像中不希望看到的物体,忠实地揭示遮挡的内容(左列),而且还能够在场景中插入对象,尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中,参考图像和目标图像之间的孔径也不同,RealFill不仅恢复了杯子后面的建筑物,而且保持了目标图像中看到的适当数量的模糊。RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置,而这些参考图像无须与目标图像对齐,甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。原创 2023-10-05 11:41:28 · 869 阅读 · 0 评论 -
【Accelerate】accelerate-large-models (RuntimeError: Expected all tensors to be on the same device……)
此方法需要预先估计,每一层一定是在同一个设备上的。原创 2023-10-01 21:47:15 · 765 阅读 · 0 评论 -
【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列(附代码讲解说明)
这样的好处在于对于同一张图片,根据不同的instruction,我们可以得到基于instruction偏好更强的视觉特征,同时对于两个不一样的图片,基于instruction内嵌的通用知识,可以使得模型有更好的知识迁移效果。Q-Former的文本输入,保证了Query提取到的特征更加的精炼。使用BLIP-2模型w/ViT-g和FlanT5XXL的指示零样本图像到文本生成的精选示例,其中显示了广泛的功能,包括视觉对话、视觉知识推理、视觉共感推理、故事讲述、个性化图像到文本的生成等。其他与BLIP2基本一样。原创 2023-10-01 15:19:08 · 12630 阅读 · 5 评论