自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(892)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 351

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1478

原创 ReAct: Synergizing Reasoning and Acting in Language Models

https://zhuanlan.zhihu.com/p/624003116https://zhuanlan.zhihu.com/p/624003116https://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/datawhalechina/tiny-universe/blob/main/conten

2025-03-25 10:09:01 128

原创 Infinite you:flexible photo recrafting while preserving your identity

Infiniteyou,引入了InfuseNet,作为controlnet的一种推广,能够接受id信息以及控制条件,通过残差连接,infusenet将投影的id特征注入到DiT基础模型中,从而使文本和id注入解耦。在训练过程中,投影网络和InfuseNet是可训练的,而其他模块保持不变,这种id特征的残差注入与通过注意力层的文本注入不同,有效的将文本和id输入分开,从而减少潜在的纠缠和冲突,得益于这种不依赖ipa的纯残差注入设计,基础的生成能力得到了更少的妥协,产生了更高质量和改善的文本-图像对齐。

2025-03-24 17:24:51 53

原创 Agents:building effective agents

2.将简单/常见问题路由到较小的模型,将困难/不寻常的问题路由至功能更强大的模型,以优化成本和速度。随着llm在关键功能,理解复杂输入,进行推理和规划,可靠的使用工具等方面日趋成熟,agent通过人类用户的命令或与人类用户的互动中开始工作,一旦任务确定,agenthi独立规划和操作,并可能返回人类手中以得到更多信息或判断。llm有时可以同时执行一项任务,并以编程方式汇总其输出,1.Sectioning,将任务分解为并行运行的独立子任务,2.Voting,多次运行相同的任务以获得不同的输出。

2025-03-08 22:19:04 69

原创 ChatDiT:a training-free baseline for task-agnostic free-form chatting with diffusion transformers

该系统将用户意图转为话语上下文工具包兼容的格式,并规划处理大规模图像集的生成策略,这涉及将自有形式的自然语言指令和参考图像翻译为结构化参数,制定逐步策略以确保输入和目标图像之间适当的关系,并执行这些步骤利用上下文工具包生成高质量的输出。Group transformer和In-Context Lora中引入的图像生成范式,其中图像生成任务被设定为生成一组n>=1的目标图像,以另一组m>=0的参考图像为条件,并附加一个全面的提示,描述n+m图像的组合。从自然语言提示中生成高保真且风格多样的图像。

2025-02-26 11:17:04 40

原创 Step-video-T2V Technical report:The Practice,challenges,and future of video foundation model

人类反馈有效的提高了视觉质量,建议使用人工标注的反馈数据训练一个奖励模型,该奖励模型在训练过程中动态评估新生成样本的质量,奖励模型定期通过新的人工反馈进行微调,以保持与发展的策略的一致性。30B,DIT,Flow Matching,544x992,204帧,一个特殊设计的VAE实现了16x16空间和8x的时间的压缩比,两个双语文本编码器,使得step-video可以理解中文或者英文提示,引入一种级联的训练pipeline,包括文本到图像的预训练,文本到视频的预训练,监督微调sft以及直接偏好优化dpo。

2025-02-24 20:37:07 205

原创 Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

deepseek-r1引入了一种简单而有效的基于规则的强化学习,无需依赖传统的支撑技术,如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM,便能出现新兴的推理模式。logic-rl,基于规则的强化学习框架,通过在逻辑难题上的训练来获得r1的推理模式,训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。采用了REINFORCE++的一个修改版本作为我们的基线算法,显示出比GRPO更好的性能。奖励作为RL中的主要训练信号,指导优化过程,包括两种类型的奖励,格式奖励和答案奖励,

2025-02-24 19:24:10 118

原创 ace++:Instruction-based image creation and editing via context-aware content filling

对于不包含参考图像的任务,如可控生成、图像修复和单图像编辑,ACE的LCU在token序列维度上拼接输入,与t2i相比,在dit的注意力输入中引入了额外的条件序列,将这些任务的条件输入从序列连接更改为通道维度连接,可以有效的减少模型适配成本。在训练上,两个阶段,第一阶段,用t2i的0-ref任务的任务数据预训练模型,flux.1-fill-dev也是这个思路,第二阶段,微调上述模型,关注模型重建输入参考图像和生成目标图像的能力,以知道模型学习上下文感知信息。

2025-02-24 17:32:04 44

原创 ace:all-round creator and editor following instructions via diffusion transformer

构建一个全能视觉生成模型的一大挑战在于多模态输入格式的多样性和支持任务的多样性,设计了一个统一框架,使用dit生成模型,以适应广泛的输入和任务,多轮绘图以及editor,1.分析了大多数视觉生成任务的条件输入,定义了条件单元condition unit,CU,该单元建立了一个统一的输入范式,包括图像掩码以及文本指令等核心元素。,考虑一个包含M个CU的LCU,模型为每个CU涉及三个入口点,一个语言模型T5,一个VAE将参考图像压缩为潜在表征,以及一个下次样模块将mask调整为相应潜在图像的形状。

2025-02-24 16:48:53 166

原创 Deepseek-r1:Incentivizing reasoning capability in llms via reinforcement learning

我们的目标是讨论LLM在没有任何监督数据的情况下,发展推理能力的潜力,专注于RL。自我演化中最显著的方面之一就是随着测试时间计算的增加而出现的复杂行为,例如,反思-模型重新审视并重新评估先前步骤的行为-探索解决问题的替代方法,这些并非显式编程的结果,而是模型与强化学习环境互动的结果。Deepseek-r1-zero是通过rl训练的,没有经过sft,通过rl涌现了许多强大而有趣的推理行为,但是有可读性差和语言混合等挑战,deepseek-r1结合了多阶段训练和冷启动数据。蒸馏的模型比直接rl效果好。

2025-02-21 09:58:04 45

原创 深度推理模型的测评

1.科大讯飞X14.GLM-Zero。

2025-02-08 10:10:29 102

原创 深度推理COT常用测评数据集

数学与推理:AIME、Math-500、LogiQA等。知识广度编程能力生成质量多语言与伦理部分数据集(如AIME 2024、MATH500)已被用于直接对比DeepSeek-R1和O1的性能。此外,李飞飞团队近期提出的s1K数据集(1000个数学问题)展示了通过小规模高质量数据微调实现高效推理的可能性。

2025-02-08 09:45:19 296

原创 [SaaS] 内容创意生产平台

7.

2025-01-27 13:06:52 96

原创 Fine-Grained head pose estimation without keypoints

Fine-Grained Head Pose Estimation Without Keypoints-论文解读代码论文Abstract传统的头部姿态计算方法是通过人脸上关键点求解二维到三维对应问题,因为对landmark 检测性能的依赖而导致存在不足。论文中提出一种基于多损失卷积神经网络的姿态估计方法。在代码中交叉熵(CrossEntropyLoss)包含了softmax,分类时从-99到99,以3为间隔,共67个值,66个间隔,作为离散的分类,对这些使用交叉熵计算损失。

2025-01-23 11:25:10 535

原创 人物一致性训练测评数据集

测试:从VGGFace2中选取了每个id的一张图片,共500个id,用于生成的提示词仅限于简单的类别名词,如男性或者女性,多乐衡量多样性,提示词则是一个类别名词和一个表情词,如快乐,悲伤和生气的组合。测试:从CelebA-HQ中随机选择300个id进行评估,每一个id有一个参考图像你,此外,还收集了一个25个id的数据集,每个id下有4个图像用于多参考图像设置下的评估。测试:手动选取的额外id和一部分Mystyle数据,对于文本提示,考虑了6个因素,服饰,配饰,动作,表情,视角和背景。

2025-01-18 23:48:45 98

原创 clip中绘制特征图

heatmap以及cam图,现在大部分clip特征不可用的原因还是因为都是计算text和image相似度的,看输入的text在image上面的表现的热力图。不行,先分块,然后在一块一块和text计算相似度,在转成图片去计算attention图。通过hook机制写的,相当于把clip中每一行的特征全部都可视化出来了。

2025-01-16 13:55:59 103

原创 ConsistentID:Portrait Generation with Multimodal fine-grained identity preserving

为了充分融合图像和文本,设计了一个面部编码器,以在文本序列的维度上无缝整合视觉提示和文本提示,给定facial embedding和text embedding,面部编码器最初采用自注意力机制将整个面部特征和面部区域特征对齐,从而得到对齐特征,N=5表示脸部的5个区域,包括眼睛、嘴巴、耳朵、鼻子和其他面部区域,下图的右侧是用facial替换的5个关键词,缺失的补0,最后,将已富含id信息的文本特征被输入到两个多层感知机中,已学习文本条件embedding。细粒度的面部视觉和文本embedding。

2025-01-15 15:30:43 40

原创 人物一致性测评方案

从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含了2024年2月至3月期间上传到Unsplash网站的50张肖像图像。测试集包括15个对象和30个文本。

2025-01-14 10:24:39 64

原创 VBench:Comprehensive benchmark suite for video generateive models

为了评估物体的颜色是否符合指定条件,使用GRiT的描述能力来描述颜色,GRiT识别物体的边界框,然后将其送入两个文本编码器,一个预测类别,另一个用于生成合成视频帧的密集描述,然后我们验证对应物体的颜色是否在所有的帧中成功描述,在生成对应物体并且描述包含颜色信息的帧中,我们计算文本提示所需颜色成功描述的帧的百分比。对于真实视频,时间闪烁通常是频繁的光照变化或在视频捕捉过程中相机抖动造成的结果,对于生成的视频,时间闪烁是视频生成模型的内在属性,通常是由于局部和高频细节的时间不一致不好导致的。

2025-01-13 15:40:00 210

原创 EVA-02:A visual representation for neon genesis

EVA系列方法均按照MVP[5]提出的基于多模态视觉Encoder作为Teacher来生成Mask Token的特征作为Student模型的监督信息,训练时的Loss使用Teacher输出的特征和Student输出的特征负余弦相似度(negative cosine similarity)。对于256个视觉Token,随机Mask的比例设置在40%左右,即102个。模型的视觉Encoder作为Teacher,EVA V2使用了智源自己训练的gaint规模多模态模型EVA-CLIP作为Teacher。

2025-01-13 10:45:54 80

原创 Omost:llm生成可组合图像

在flux中,区域生成的方法也有很多,也不一定需要attention score这种做法,但是确实和attention score比较类似的。这段代码产生一个文本相关的画布,首先有一个针对全局的文本描述,然后是有各个主体的局部描述以及大小和位置,这样生成的图像其实一个全局+局部描述组合出来的图像。总共有9*9*9=729个矩形框,之所以是定义一些框,而不是llm来直接预测矩形框的坐标,因为前者更容易。画布还会和文本prompt关联,文本prompt包括一个全局的描述,同时也包括子主体的描述。

2025-01-08 11:14:08 75

原创 flux中的region control

i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。

2025-01-07 17:53:22 74

原创 Training-free regional prompting for diffusion transformers

i2i是图像到图像之间的自注意力,i2t是图像到文本之间的cross attention,t2i是文本到图像的cross attention,t2t是文本到文本的自注意力。文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。

2025-01-07 14:51:24 269

原创 Transparent image layer diffusion using latent transparency

https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/685029401https://zhuanlan.zhihu.com/p/684362351https://zhuanlan.zhihu.com/p/684362351https://github.com/huchenlei/ComfyUI-layerdiffusehttps://github.com/huchenlei/ComfyUI-layerdiffuseAdapti

2025-01-07 09:52:37 40

原创 OminiControl:Minimal and Universal control for diffusion transformer

2.add限制了条件和图像标记之间潜在的交互。编码的条件标记C1与噪点图像标记X具有相同维度和隐空间,使其能够被transformer块直接处理,因为条件标记和图像标记位于相同的隐空间中,OminiControl利用现有的DiT块来联合处理他们,只需要通过lora来对这些块进行最少的微调,以适应处理额外的条件标记。利用现有的架构,OminiControl重用基础DiT模型中的VAE编码器,将条件图像投影到与噪点图像标记相同的隐空间中,与clip以及controlnet的额外控制相比,减轻了架构的复杂性。

2025-01-03 11:37:26 86

原创 DiT架构特征融合方式

文章详细探讨了DiT的设计,包括不同条件信息的嵌入方法,并展示了最大模型DiT-XL/2在ImageNet 256x256类别条件生成任务上的优秀表现。本文探讨了如何将额外信息融入稳定扩散模型(stable diffusion),包括直接拼接、使用Spatialtransformers和cross-attention机制,以及Controlnet和Adapter设计。

2025-01-03 10:51:18 65

原创 Bilateral reference for high-resolution dichotomous image sementation

1.BiRefNet将HR数据上的DIS任务显式的分解为两个模块,即Localization module和Reconstruction module,即定位模块和重建模块。2.BiRefNet在RM中采用双边参考,充分利用源图像和梯度先验。大多数分割都是encoder-decoder结构;双向参考包括InRef和OutRef,InRef补充HR信息,OutRef关注细节丰富区域。BCE、IoU、SSIM、CE四个损失结合在一起,考虑到背景可能会有大量梯度信息的非目标噪声,

2025-01-02 17:40:09 412

原创 retinaface人脸矫正模块

通过前面的描述我们知道,RetinaFace里面采用了特征金字塔FPN,其中低层特征用来检测小的人脸,高层的特征用来检测大的人脸,但是如果下游是人脸识别任务的话,小的人脸对于人脸识别结果不论是在准确率还是召回率方面都没有太多正向的作用。我看到retinaface输出的bbox和kps中有负值,在insightface全流程的代码中,会有一个face_align的矫正模块,在一些三方的retinaface+facenet的模块中我也看到了对于负值的矫正。后续结合arch来解码真实的框,所以会有负值的。

2024-12-24 09:57:59 963

原创 Identity-Preserving Text-to-video Generation by Frequency Decomposition

为了解决这些问题,首先使用人脸识别主干提取内在id表征中强的特征,并使用clip图像编码器捕捉再予以强的特征,然后,我们使用Q-former来融合这两种特征,生成富含高频语义信息的内在身份特征,为了减少clip中无关特征的影响,在进入q-former之前应用dropout,此外,将经过插值处理的,来自人脸识别主干的浅层多尺度特征与clip特征进行连接,确保在有效捕获基本内在id特征的同时,过滤掉与id无关的外部噪声。为了减轻训练的复杂性,提出了一种分层策略,在该策略中,模型先全局学习信息,然后再局部学习。

2024-12-23 12:04:22 66

原创 ID一致性 train-free方法总结

采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。保持文本的可编辑性,改变风格;

2024-12-18 11:02:22 75

原创 DreamIdentity:Improved Editability for efficient face-identity preserved image generation

2.训练和测试之间目标不一致。采用了在人脸数据集上预训练的vit,native映射最终层的输出身份向量只能带来次优的身份保留,最终层主要包含适合于判别任务的高层语义,不是生成任务,比如相同身份的不同表情应该在面部识别训练损失下共享类似的表征,而生成则需要更详细的信息,比如面部表情,因此仅映射最后一层表征会成为生成任务的瓶颈,为了解决上述问题,利用了面部编码器的多尺度特征带来更真实的表征身份,具体来说,通过来自第3,6,9,12层的四个cls进行增强。重建目标就是图2的c中的第一行,就是原图输出原图测。

2024-12-18 10:38:51 142

原创 Implicit style-content separation using lora

用于图像风格化的lora:lora通常用于图像风格化,通过微调模型以生成所需风格的图像,通常,一个lora在一组图像上训练,然后与控制方法结合,如风格概念滑块stylistic concept-sliders或者controlnet以及文本提示以调节生成图像的内容,尽管基于lora的方法在捕捉风格和内容方面显示了显著能力,但这个人物需要两个单独的lora模型。给定一个输入图像I,只微调lora权重W4和W5,目的是重建图像,针对一个一般的文本提示A[v],仅训练两层,其中W4捕获内容,W5捕获风格。

2024-12-06 21:29:46 144

原创 IC-Context lora for diffusion transformers

最终设计的框架通过在训练期间直接连接成一个大型图像,从而同时生成一组图像,同时将它们的标题整合为一个合并的提示,包含整体描述和每个storyboard的清晰指导,在生成图像之后,再将图像进行切分。为了支持对额外图像集的条件处理,采用了SDEdit,这是一种无训练方法,基于一个没有mask的图像集进行图像修补,所有图像均合并在一个大型图像内。文本到图像模型能够从一个包含多个描述的单一提示词中生成连贯的多张图像,因此可以使用合并的图像提示来简化架构,而不需要只关注其各自的文本标记token。

2024-12-06 21:27:54 239

原创 ComfyUI-PuLID-Flux-Enhanced中的train_weights优化

假设有一个real id embeddding,理想的表达了id特征,使用该embedding,可以获得最佳的id保真度。虽然我们使用选定的样本作为目标,但训练后的权重不会完美的指向目标,如果是这样,只需要使用选定的权重,无需训练。注意观察到pulid多了训练模块,但是pulid本身也没有什么问题,主要的问题还是在和lora结合时产生的一些变化,他会改变lora的一些风格特征。train_weights,可以用小于2000步进行训练,从而实现比非训练更深的融合,过多的训练步骤会导致训练崩溃。

2024-12-03 21:26:51 198

原创 sd-scripts-sd3中的flux_minimal_inference.py代码分析

【代码】sd-scripts-sd3中的flux_minimal_inference.py代码分析。

2024-11-26 11:59:41 72

原创 flux的权重版本

原生12B的模型,float16的。需要配合ae.safetensors,flux1-dev.safetensors以及clip-l和T5的权重使用,注意ae.sft和flux1-dev.sft只是之前的叫法,现在都改成safetensors了。Kijai大神的两个flux的fp8的版本,都是11.9G,这两个版本只是方法的差异,本身都是fp8的模型。这是个17.2G的fp8的模型,因为其包含了两个clip模型,因此是17.2G.4.flux-dev-fp8.版本2,Xlabs-AI。

2024-11-23 23:45:37 204

原创 Pulid:pure and lightning id customization via contrastive alignment

2.缺乏保真度,gan时代的经验,提高id保真度的一个直接想法是在扩散训练中引入id loss,扩散模型需要迭代去噪,准确获取X0需要多个多个步骤,直接从当前时间步预测X0,然后计算id损失,然而当当前时间步较大时,预测的X0往往是有嘈杂和有缺陷的,这种情况下计算id损失显然是不准确的,因为人脸识别backbone是在真实图像上训练的。可以解决上述两个挑战,1.为了最小化对原始模型行为的影响,构建了一个contrastive pair包括了相同的提示和初始化潜变量,分别进行id插入和不进行id插入。

2024-11-22 21:28:10 180

原创 flux代码解析

为了让transformer知道词语的前后关系,就要给transformer中的token注入某种位置关系,仅仅告诉每个token它的绝对位置是不够好的,这样做最明显的缺点是模型无法处理训练时没有见过的长序列,比如说训练集里最长的句子是512的位置编码,就不能很好的处理512之后的token,因此,我们不仅希望每个token知道自己的绝对位置,还希望token能从位置编码中知道相对位置的信息。cfg的本意是过两遍去噪模型,一次输入空文本,一个输入为给定文本,让模型远离空文本,靠近给定文本。

2024-11-21 21:25:51 188

原创 [SaaS] oppo生成ai端云落地实践

https://zhuanlan.zhihu.com/p/698776284https://zhuanlan.zhihu.com/p/698776284

2024-11-12 17:15:59 180

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除