
文生图
文章平均质量分 68
杰说新技术
AIGC最新前言落地技术研讨
展开
-
统一多种图像生成人物的扩散模型OmniGen部署
OmniGen是一个由北京人工智能研究院的研究人员提出的专为统一图像生成而设计的新型扩散模型。OmniGen 采用了变分自动编码器(VAE)与预训练的大规模Transformer模型相结合的设计,VAE负责从输入图像中提取连续的视觉特征,而Transformer则根据这些特征及给定条件生成最终的输出图像。OmniGen可以接受自由形式的多模态交错文本和图像作为输入,使用Phi-3分词器处理文本数据,并通过VAE将图像转化为潜在表示后进一步编码成视觉标记序列。原创 2024-12-09 06:00:00 · 597 阅读 · 0 评论 -
超越FLUX,最新文本到图像生成框架IterComp部署
IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学等多所高校的研究人员联合推出的文本到图像生成框架。IterComp框架的核心目标是通过迭代反馈学习机制来提升基础扩散模型在组合性生成任务中的表现。IterComp提出了第一个基于奖励控制的迭代组合感知框架,旨在全面提升基础扩散模型的组合性。通过精心挑选模型库并收集来自不同模型的组合生成偏好,IterComp能够有效地提取和整合这些偏好,从而生成更高质量的图像。原创 2024-12-01 21:42:46 · 428 阅读 · 0 评论 -
Stability AI最新一代图像生成模型stable-diffusion-3.5-large分享
stable-diffusion-3.5-large是由 Stability AI开发的最新一代图像生成模型。stable-diffusion-3.5-large模型拥有80亿个参数,能够生成高达百万像素级别的高分辨率图片,直接输出专业级别的图像。stable-diffusion-3.5-large提供了丰富的定制选项,用户可以对模型进行微调、使用LoRA优化,以及进一步开发特定的工作流程。原创 2024-11-25 21:04:17 · 595 阅读 · 0 评论 -
新型扩散模型加速框架Hyper-sd分享
Hyper-SD是由字节跳动技术团队提出的一种新颖的扩散模型加速框架,通过轨迹分段一致性蒸馏和人类反馈学习,显著提升了低步数下的图像生成性能。Hyper-SD结合轨迹保持和重构策略,实现了快速且高质量的图像生成,同时支持多种风格和可控生成,为生成式AI领域带来新SOTA性能。在实际应用中,Hyper-SD 提供了多种不同步数的 LoRA 模型,可以应用于不同的基础模型,并始终生成高质量的图像。原创 2024-10-18 06:00:00 · 546 阅读 · 0 评论 -
支持超高分辨率图片生成,UltraPixel模型分享
UltraPixel模型是一种先进的超高分辨率图像合成解决方案,它通过创新的架构设计和高效的参数共享机制,成功解决了传统方法在超高分辨率图像生成领域面临的多个挑战。UltraPixel采用了一种独特的级联扩散模型结构,能够在单一模型中实现多分辨率的图像生成,从较低的1K分辨率一直到较高的6K分辨率。UltraPixel集成了一个高压缩比和对分辨率变化具有鲁棒性的自解码器,这保证了无论是在哪种分辨率下生成图像都能保持高质量。原创 2024-09-30 06:00:00 · 925 阅读 · 0 评论 -
最新级联文生图技术,StableCascade模型部署
StableCascade是基于Wuerstchen架构的基于文本条件生成图像latent的扩散模型。相较于Stable Diffusion,Stable Cascade的压缩系数为42,可以将1024x1024图像编码为24x24,同时在高度压缩的latent空间中训练文本条件模型,实现了16倍的成本降低。Stable Cascade能够生成更加细腻、逼真的图像细节,无论是人物的表情、衣物的纹理还是自然景观的细微之处,都能有出色的呈现。原创 2024-08-16 06:00:00 · 1043 阅读 · 0 评论 -
支持4K高分辨率,PixArt-Sigma最新文生图落地经验
PixArt-Sigma是一个由华为诺亚方舟实验室联合多个研究机构共同开发的先进人工智能模型,专门用于文本到图像(Text-to-Image)的生成任务。PixArt-Sigma采用扩散变压器(Diffusion Transformer,DiT)架构,这是其能够高效生成高分辨率图像的关键。PixArt-Sigma模型使用了一种从弱到强的训练策略,即从较低质量的数据开始,逐步引入更高质量的数据,从而提高最终图像的质量。PixArt-Sigma在创意设计、广告、娱乐、教育和科研等多个领域都有广泛的应用前景原创 2024-07-26 06:00:00 · 1217 阅读 · 0 评论 -
媲美Midjourney-v6,Kolors最新文生图模型部署
Kolors模型是由快手团队开发的一种文本到图像生成模型。Kolors模型基于Stable Diffusion框架,在海量中英文图文对数据集上进行了训练,特别在中文理解和还原方面表现出色。Kolors模型在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现,尤其擅长生成高质量、细节清晰的人像图片。此外,Kolors在人类评估中的表现超过了现有的开源模型,并在视觉吸引力方面达到了Midjourney-v6的水平。原创 2024-07-22 06:00:00 · 1464 阅读 · 0 评论