- 博客(62)
- 收藏
- 关注
原创 视觉风格提示词:Visual Style Prompting with Swapping Self-Attention(风格迁移)
本文的工作是做风格迁移的本文证明了在风格迁移时,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。在不断发展的文本到图像生成领域,扩散模型已成为内容创建的强大工具。尽管现有的模型能力非凡,但在实现风格一致的可控生成方面仍面临挑战,需要进行高成本的微调,或者由于内容泄漏而经常无法等效地传输视觉元素。为了应对这些挑战,我们提出了一种新颖的方法–视觉风格提示,以生成各种图像,同时保持特定的风格元素和细微差别。
2025-03-30 11:05:23
1037
原创 Attention Distillation: A Unified Approach to Visual Characteristics Transfer(CVPR2025)
生成式扩散模型的最新进展显示了对图像风格和特征的内在理解。在本文中,我们利用预训练扩散网络中的自我注意力特征,将参考图像的基本特征转移到生成图像中。与以往将这些特征作为即插即用属性的工作不同,我们提出了一种在理想和当前风格化结果之间计算的新型注意力蒸馏损失,在此基础上,我们通过潜空间中的反向传播来优化合成图像。接下来,我们提出了一种改进的分类器引导,将注意力蒸馏损失集成到去噪采样过程中,进一步加快了合成速度,使图像生成应用范围更加广泛。
2025-03-27 17:43:27
572
原创 IEEE PDF Xpress校验出现 :字体无法嵌入问题以及pdf版本问题
在处理IEEE的camera ready的时候,提交到IEEE express的文件没有办法通过validate,看了下guidance,主要原因可能是字体嵌入的问题,以及pdf的版本的问题。这里采用Adobe Acrobat pro进行修复
2025-03-27 11:26:33
567
原创 StoryWeaver: 一种用于故事可视化的统一模型(AAAI2025))
研究方向:故事可视化论文链接项目地址故事可视化在人工智能领域得到了越来越多的关注。然而,现有的方法仍然难以保持角色身份保存和文本-语义对齐之间的平衡,这在很大程度上是由于缺乏对故事场景的详细语义建模。StoryWeaver 是一个统一的世界模型,用知识增强来进行故事角色的定制化设计,可以应用在故事绘本领域。不同故事可视化的方法的比较之前的故事可视化方法会面临角色不一致以及语义不匹配的问题。本文提出的方法可以实现角色和语义的一致性。一个完整的故事可视化结果。
2025-01-03 16:40:56
1165
原创 数据集的处理:将Storystream的数据集处理为可训练的格式
SEEDStory这篇论文提出的StoryStream这个数据集里面的。我们常用的故事可视化的数据的大小为128*128,图像的质量不是很好,本文提出的数据集的大小为854 * 480,数据的质量比较高本数据集包含3个子数据集。
2025-01-02 15:13:01
699
原创 [ComfyUI]AWPortraitCN:FLUX 架构下的国人写实模型(lora)
AWPortrait-FL使用AWPortrait-XL的训练集和近2000张时尚摄影照片在FLUX.1-dev上进行微调,具有极高的审美质量。它在构图和细节上有显着的改进,皮肤和文字更加细腻和真实。由 AWPlanet 的 DynamicWang 训练。用的AWPortraitXL 的数据集进行训练的AWPortraitXL 1.1在1.0版本的基础上进行了微调,收录了近2000张高审美品质的时尚摄影图片。此增强功能显着提高了构图美感和输出细节。
2024-12-29 16:30:41
882
原创 [ComfyUI]一些好的节点分享①:quick-connections(整理节点连线)、ComfyUI-to-Python-Extension(将workflow转化为Python代码)
本文分享了两个ComfyUI 的节点,分别是一个负责将ComfyUI的连线变为直线的节点,和一个将ComfyUI的工作流转化为可执行的Python代码的节点。
2024-12-29 14:36:23
926
原创 StableAnimator模型的部署:复旦&微软提出可实现高质量和高保真的ID一致性人类视频生成
由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。当前的人类图像动画扩散模型很难确保身份 (ID) 的一致性。本文介绍了 StableAnimator,这是第一个端到端保留 ID 的视频扩散框架,它无需任何后处理即可合成高质量视频,以参考图像和一系列姿势为条件。StableAnimator 以视频扩散模型为基础,包含精心设计的模块,用于训练和推理,力求身份一致性。
2024-12-24 17:22:30
1340
原创 Story-Adapter:长序列故事帧生成模型
文本提出了一个迭代式生成长序列故事帧的模型。文本设计了一个即插即用的全局参考交叉注意力模块(GRCA)来增强迭代生成方式的有效性。本文设计了一个线性加权策略来融合视觉与文本两类模态的信息。模型图采用类似ipadapter的方法,将生成的所有帧数据,最为下一次迭代生成的参考图像。
2024-12-10 21:38:58
1405
原创 [comfyui]IPAdapter_plus:用一张图像和文本引导生成图像,可做风格迁移和图像编辑
ipadapter_plus github地址IPAdapter 是非常强大的图像到图像调节模型参考图像的主题或风格可以很容易地转移到其他图像中。可以把它想象成一个单图像lora。
2024-12-10 10:38:58
920
原创 [ComfyUI]Florence提示词反推、目标检测
多功能性:Florence-2能够执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。
2024-12-03 20:43:23
1938
原创 [ComfyUI]SD3.5+controlnet:可用Blur, Canny, and Depth
ControlNet 模型的快速概述:blur:实现极高保真度升级,包括 8K 和 16K 分辨率。非常适合将低分辨率图像平铺成大而详细的视觉效果。图像的超分Canny:利用 Canny 边缘图来构建生成的图像。此控件类型对于插图特别有用,但可以适应所有样式。(利用类似素描图来生成图像)Depth:使用由 DepthFM 生成的深度图来指导图像生成。非常适合建筑渲染、纹理化 3D 资源以及需要精确控制图像组成的其他用例。
2024-12-01 20:55:43
1401
2
原创 comfyui本地快速部署
是一个开源的图形用户界面(GUI),专门设计用于深度学习模型的控制和操作,特别是与图像生成(如 Stable Diffusion)相关的任务。它通过直观的界面让用户能够方便地构建、调试和执行复杂的深度学习工作流,而无需编写大量的代码。ComfyUI 的主要特点ComfyUI 提供了一个基于拖拽和连接节点(node)的图形界面,用户可以通过拖动和连接不同的功能模块(节点)来设计模型和数据处理流程。这使得用户可以通过可视化的方式控制模型的输入、处理和输出。
2024-11-29 10:35:06
1385
1
原创 comfyui使用记录-PuLID_Flux模型使用
PuLID 技术的核心优势在于快速换脸,弄起来的时候特别方便,不需要去调整模型。只要上传人脸,就可以把我们想要换的人脸融入到各种场景的人物和风格的人像中,换脸效果非常逼真。该论文的贡献总结如下。(1)提出了一种免调优方法,即PuLID,它保留了高ID相似度,同时减轻了对原始模型行为的影响。(2) 在常规扩散分支旁边引入了闪电 T2I 分支。在此分支中,结合了对比对齐损失和 ID 损失,以最大限度地减少原始模型上 ID 信息的污染,同时确保保真度。
2024-11-28 22:27:16
3210
原创 OmniGen: Unified Image Generation(代码的学习)
本文介绍了对于Omnigen这篇论文的代码的解读。Omnigen这项工作中,介绍了一种通用的文生图模型,可以处理多种文生图的任务,包括风格迁移,图像编辑,上下文学习,少样本迁移
2024-11-11 17:00:30
599
原创 OmniGen: Unified Image Generation(代码的复现)
OmniGen的github项目地址OmniGen 在各种图像生成任务中都表现出了卓越的性能,并可能大大超过现有扩散模型的极限。OmniGen 是第一个能够以统一的方式处理各种任务的模型,如从文本生成图像、图像编辑和视觉条件生成。用一个模型实现多类文生图任务模型框架图确实这个模型有很好的文本理解能力,可以实现多种类型文生图任务,但是每个任务的能力可能不会非常好。本文对该项目进行了复习,并对结果进行了简单的展示
2024-11-03 17:10:08
779
原创 unet中的attn_processor的修改(用于设计新的注意力模块)
本文简单介绍了如何修改unet中的attnprocessor已实现对注意力模块的修改,从而实现用多个不同的输入信息引导扩撒模型生成图像
2024-11-03 10:39:21
1095
2
原创 CSGO: Content-Style Composition in Text-to-Image Generation(代码的复现)
CSGO: Content-Style Composition in Text-to-Image Generation是一篇风格迁移的论文:将内容参考图像和风格参考图像分别投影,然后注入到内容模块和风格模块,同时采用controlnet的方法将内容参考图像注入unet的上采样块当中。本文记录了复现这篇论文的代码遇到的一些的问题
2024-11-01 22:04:26
1179
2
原创 本地部署训练、测试controlnet的完整过程(包括报错和代码)
本地部署controlnet,利用huggingface提供的训练代码和数据进行训练。从相关文件的下载,环境的配置,到训练模型,测试模型,以及报错的解决
2024-09-02 19:59:05
2226
7
原创 一个初始化的服务器,需要配置的相关软件以及环境(cuda、torch、conda)
一个初始化的服务器,需要配置的相关软件以及环境(cuda、torch、conda)
2024-08-28 09:53:22
920
原创 用nltk包出现的三个问题 报错显示 缺少 punkt_tab、averaged_perceptron_tagger、wordnet 这三个文件
用nltk包出现的三个问题 报错显示 缺少 punkt_tab、averaged_perceptron_tagger、wordnet 这三个文件
2024-08-27 21:16:58
1028
5
原创 unet各模块内容的理解(包含注意力机制、残差、以及数据维度的变化)
对unet的各模块内容进行梳理,包括各模块的设计,以及数据流的整个处理流程,以及其维度的变化
2024-03-17 10:15:38
4850
2
原创 扩散模型:DDPM代码的学习(基于minist数据集)
本文主要对一个基于minist数据集搭建的DDPM模型代码中各个模块的含义进行解析,初步记录了自己了解扩散模型的一个过程,为后续的进一步学习打基础。
2023-09-25 18:37:04
3072
6
原创 基于minist数据集用VAE训练生成图片(VAE基础入门学习)
VAE是变分自编码器(Variational Auto-Encoder)的缩写。它是一种深度生成模型,由 Kingma 等人于 2014 年提出的基于变分贝叶斯(Variational Bayes,VB)推断的生成式网络结构1. VAE 模型有两部分,分别是一个编码器和一个解码器,常用于 AI 图像生成。训练模型的网络的结构。
2023-09-19 11:06:25
1132
原创 在kaggle中用GPU使用CGAN生成指定mnist手写数字
在GAN的基础上进行有条件的引导生成图片,采用CGAN模型,在kaggle中利用提供的GPU实现模型的搭建,实现生成指定的MNIST手写数字
2023-08-28 22:26:17
693
原创 GAN生成对抗模型根据minist数据集生成手写数字图片
通过用minist数据集进行训练,得到一个GAN模型,可以生成与minist数据集类似的图片。GAN是一种生成模型,它的目的是通过学习真实数据的分布来生成新的数据。GAN由两个网络组成,一个是生成器(Generator),一个是判别器(Discriminator)。生成器的任务是从随机噪声中生成类似于真实数据的样本,判别器的任务是判断给定的样本是真实的还是生成的。
2023-08-19 23:29:19
867
原创 基于传统网络架构训练图像分类模型(上传到colab中进行运算)
这个项目主要是对5类花的图像进行分类。采用迁移学习的方法,迁移学习resnet网络,利用原来的权重作为预训练数据,只训练最后的全连接层的权重参数。在google drive中部署以上涉及的相关文件夹。适合深度学习入门的小项目学习
2023-07-22 06:30:00
276
原创 分类问题:对体测分数的类型进行预测 采用AdaBoostClassifier
文章目录对体测分数的类型进行预测应用背景1.导入数据原始数据2.对数据进行转化,将类别型数据用数值型数据进行替换。最终数据替换的对应关系如下转化后数据3.对于转化后的数据,需要对方差比较大的数据进行划分区间,然后进行值的映射4.进行模型的搭建5.得出预测的结果对体测分数的类型进行预测应用背景在体测的实际情况中,我们发现某些情况下由于系统错误或者学生操作不当会导致学生的分数出现缺失的情况,从而影响学生总体成绩的统计。因此我们利用学生的体侧成绩中的’性别’, ‘民族代码’, ‘学科门类’, ‘坐位体前屈等
2023-02-17 10:43:35
464
2
原创 2021泰迪杯B题数据处理4.1
文章目录涉及需要处理的数据文件任务 4 肥料产品的多维度对比分析数据样式最终需要处理的结果的样式数据处理总共分为3部分①获取氮磷钾的含量②获取氯含量③获取有机质含量④程序执行导出结果总结涉及需要处理的数据文件需要处理的文件:提取码zxcv任务 4 肥料产品的多维度对比分析任务 4.1 设计算法或处理流程,从附件 4 技术指标中提取出氮、磷、钾养分和有机质的百分比,以及肥料含氯的程度。请在报告中给出处理思路及过程,并将结果保存到文件“result4_1.xlsx”中。注 如果技术指标中只给出总养分
2022-05-15 22:50:49
1014
1
原创 计算机组成原理学习笔记(一)计算机系统概述
文章目录一.计算机系统概述学习历程1.先从宏观的角度上看:计算机的发展历程和计算机的整体组成结构。1.1计算机系统的多级层次结构2.深入到计算机内部看其组成存储程序的概念:2.1各个硬件的基本组成情况3算机的性能指标3.1字、字长、机器字长、指令字长、存储字长的区别和联系4本章代表习题的讲解。一.计算机系统概述学习历程1.先从宏观的角度上看:计算机的发展历程和计算机的整体组成结构。1.1计算机系统的多级层次结构计算机是软硬件的综合体,为了计算机能高效的实现我们所能看到的宏观意义上的功能,需要计算
2022-03-06 21:47:09
262
2
原创 机器学习收入阶层分类(python)
利用python对30000个数据进行收入阶层分类数据提供了30000多个包括 “年龄 工作类型 体重 教育程度 教育年限 婚否 职业 家庭与位置 种族 姓名 资本收入 资本支出 每周工作时间 国籍”等特征的样本,以识别收入阶层(1为高收入阶层,0为非高收入阶层)。提交数据时:第一例为ID, 第二例为Label (0 或1)
2022-01-17 22:19:34
2073
1
原创 爬取51job职位信息--进行专业市场需求可视化分析(python、tableau、DBeaver)
爬取51job职位信息--进行专业市场需求可视化分析(python、tableau、DBeaver)
2022-01-17 12:45:42
3853
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人