
生成式AI
文章平均质量分 91
详解各类生成式AI模型,包括但不仅限于VAE、GAN、Diffusion Model等。
CVHub
专注多模态视觉语言AI全栈知识分享,提供原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案
展开
-
TPAMI 2023 | 生成式AI与图像合成综述
在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。原创 2023-11-04 23:14:23 · 185 阅读 · 0 评论 -
TPAMI 2023 | 生成式AI与图像合成综述
在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。原创 2023-09-09 10:43:06 · 128 阅读 · 0 评论 -
Google & CMU 新作 | 揭示 LLMs 在解决视觉任务方面的无限潜力
本文通过提出一种新方法 SPAE,揭示了冻结的大型语言模型(LLMs)在处理涉及图像和视频的多模态理解和生成任务中的潜力,而无需对这些模态进行显式训练。SPAE 通过将视觉内容和具有丰富语义意义的可变长度的词汇标记之间进行转换来实现这一目标。研究结果显示了利用LLMs丰富的知识和推理能力在计算机视觉领域的巨大潜力,超越了仅限于语言任务的限制。然而,模型的上下文学习能力仍然会受到可接受序列长度的显著限制。原创 2023-08-13 00:21:46 · 210 阅读 · 0 评论 -
港中文 & 苏大发布中文语法纠错大模型GrammarGPT | 仅用1K数据进行指令微调即可达到SOTA性能!
首先通过从互联网收集的线索来引导ChatGPT生成带有线索的不符合语法的句子,然后对从互联网收集的没有线索的不符合语法的句子进行标注。此外,本文还提出了一种错误不变的增强技术,用相似的命名实体替换并行数据中的命名实体,进一步增强模型纠正母语中文语法错误的能力。文中表明,对于用LLMs构建垂直领域的应用中,高质量的训练数据,数据构建的技巧,和构建何种类型的数据显得如此重要。过去的研究主要关注外国中文学习者产生的明显和幼稚的语法错误,而最近的工作则转向由母语者产生的更为微妙和具有挑战性的语法错误。原创 2023-08-13 00:16:35 · 742 阅读 · 0 评论 -
DragGAN 升级版 | 中科大联合上海 AI Lab 发布 FreeDrag: 无需点跟踪即可稳定拖动语义内容!
DragGAN 和 FreeDrag 在各类场景上的对比如下图(图4)所示,可以发现FreeDrag可以有效地防止handle point的异常消失(如图4第一个例子中消失的嘴巴和第二个例子中消失的眼镜),同时有力地避免了由于内容突变和相似点干扰导致的异常编辑,保障了点移动的可靠性(如图4第三个例子中大象的眼睛和第四个例子中的马腿)。进一步的,在各类场景上的大量实验(图5) 充分验证了FreeDrag 可以通过稳定的点移动实现更高的编辑质量,助力交互式的基于点的图像编辑达到新的高度。意味着更大的更新程度。原创 2023-07-22 23:25:29 · 162 阅读 · 0 评论 -
华为诺亚实验室最新研究进展 | AIGC时代的ImageNet,百万生成图片助力AI生成图片检测器研发
过去业界也有推出一些数据集。他们主要有三个特点。第一个是数据规模小,第二个是都是基于GAN的,第三个是局限于人脸数据。随着时间推移,数据规模慢慢地在增加,生成器也从GAN时代过渡到Diffusion时代,数据的范围也在增加。但是一个大规模的,以Diffusion模型为主的,涵盖各类通用图像的数据集仍然是缺失的。基于此,我们提出一个对标imagenet的genimage数据集。真实的图片采用了ImageNet。虚假的图片采用ImageNet的标签进行生成。原创 2023-07-09 17:55:39 · 457 阅读 · 0 评论 -
VisorGPT: 如何基于 GPT 和 AIGC 模型定制一个可控的生成模型
本文主要为大家介绍了VISORGPT方法,这是一种通过生成式预训练学习视觉先验的机制。它利用序列数据和语言建模的方法来学习关于位置、形状和类别之间关系的先验知识,并提供了对学习先验进行定制化采样的方法。原创 2023-06-18 13:28:15 · 304 阅读 · 0 评论 -
南洋理工开源海外中文大语言模型Panda LLM | 探索数据因素和训练策略如何影响大模型性能表现
104万个词条(1,043,224条;原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7)数据集下载地址:https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA。原创 2023-05-20 13:10:17 · 558 阅读 · 0 评论 -
两万字长文带你全面解读生成式人工智能
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,仅供学习,违者必究!原创 2023-05-20 13:04:33 · 6140 阅读 · 0 评论 -
《万字长文带你解读AIGC》系列之技术篇
众所周知,深度学习的两个主流领域是自然语言处理(NLP)和计算机视觉(CV),它们的研究显著改进了骨干架构,并在其他领域启发了改进后骨干架构的各种应用,例如语音领域。,Transformer 从其翻译不变性中解放了 CNN,允许更长距离的依赖关系和更少的归纳偏差,使它们成为更强大的建模工具,并比 CNN 更适合于下游任务。在 CV 领域,CNN 有着不可撼动的地位。基于似然的概率模型,如自回归模型和流模型,具有可追踪的似然,这为优化模型权重提供了一种直接的方法,即针对观察到(训练)数据的对数似然进行优化。原创 2023-04-19 21:28:26 · 1082 阅读 · 0 评论 -
《万字长文带你解读AIGC》系列之入门篇
然而,在 Web 3.0 中,借助 AIGC,数据消费者现在可以成为数据创作者,因为他们能够使用 AI 算法和技术来生成自己的原创内容,这使得他们能够更好地控制他们生产和消费的内容,使用自己的数据和 AI 技术来生产符合自己特定需求和兴趣的内容。总的来说,向 AIGC 的转变有可能大大改变数据消费和生产的方式,使个人和组织在他们创建和消费内容时具有更多的控制和灵活性。通常情况下,模型的性能随着训练样本的增多而提高。最后,我们将集中讨论目前面临的挑战,并对生成式AI在不久的将来可能的发展进行了相关的展望。原创 2023-04-19 13:30:51 · 741 阅读 · 0 评论 -
超越DALL·E!| OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型
扩散模型最近被证明可以生成高质量的合成图像,尤其是当与引导技术结合使用以牺牲多样性来换取保真度时。CLIP 指导和无分类器指导。作者发现后者在真实感和字幕相似性方面更受人类评估者的青睐,并且通常会产生逼真的样本。来自使用无分类器指导的 35 亿参数文本条件扩散模型的样本比 DALL-E 的样本更受人类评估者的青睐,即使后者使用昂贵的 CLIP 重新排序也是如此。此外,该模型可以进行微调以执行图像修复,从而实现强大的文本驱动图像编辑。原创 2023-03-23 22:08:08 · 479 阅读 · 0 评论 -
InstructPix2Pix: 一种无需微调新的快速图像编辑方法
如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号:cv_huber,一起探讨更多有趣的话题!原创 2023-03-23 21:29:12 · 597 阅读 · 0 评论 -
SINE: 一种基于扩散模型的单图像编辑解决方案
本文介绍了SINE,一种基于单图像编辑的方法。只用一张图像和对图像中对象的简要描述,该方法就可以实现各种分辨率的广泛编辑,并根据语言指导中描述的信息。为了获得该结果,作者利用了预训练的大规模文本到图像扩散模型。训练步骤使用基于补丁的微调方法对预先训练的模型进行微调,直到它过拟合单个图像。在采样时间,使用过拟合的模型来指导预先训练的扩散模型进行图像合成,这既保证了结果的保真度,又利用了预先训练模型的泛化能力。原创 2023-03-23 21:27:18 · 265 阅读 · 0 评论 -
一文深度剖析扩散模型究竟学到了什么?
本研究的目的是评估扩散模型是否能够从其训练数据中复制高保真内容,根据作者的结论不难发现这种现象是普遍存在的。虽然大规模模型的典型图像似乎不包含我们的特征提取器可检测到的复制内容,但复制似乎出现得足够频繁,以至于它们的存在不容易被忽略;如下图所示,数据集相似度 ≥.5 的稳定扩散图像占整体随机生成的约 1.88%.其实在中对复制的搜索仅涵盖了LAION数据集 aesthetic split 中的 1200 万张图像。原创 2023-03-23 21:23:12 · 423 阅读 · 0 评论 -
万字长文带你入门带你入门变分自编码器
本文首发至微信公众号:CVHub,不得以任何形式转载或售卖,仅供学习,违者必究!导读随着 AIGC 的火爆出圈,其背后的底层技术——扩散概率模型也逐渐浮出水面。这是一类相比于 GAN 更先进的生成模型,由 Sohl-Dickstein 等人于 2015 年首次提出。然而,真正使其爆火的里程碑工作应该是 DDPM,即去噪扩散概率模型的出现。因为自 DDPM 面世以来,人们对扩散模型产生了浓厚的兴趣,不断有新的工作涌现出来,并成功的扩展到多个领域,包括但不仅限于语音建模、文本到语音、文本到图像以及多变量原创 2023-03-20 20:27:50 · 336 阅读 · 1 评论 -
一文看尽深度学习中的各种经典GAN
本文对不同结构的GANs进行了总结,重点介绍了在图像质量、模式多样性和训练不稳定这三个关键挑战上他们是如何提高性能的。上图(a)展示了从2014到2020的GANs在架构改进上的发展,可以发现,在不同架构的GANs中存在许多联系。上图(b)展示了GANs对于三大挑战的相对性能表现。有兴趣的读者可以查阅原论文以更深入地了解每个GAN变体的原理和性能表现。接下来本文将简要回顾一下不同架构的GANs是如何解决三大挑战的。原创 2023-03-19 20:55:42 · 1153 阅读 · 0 评论 -
超越DALL·E | OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型
超越DALL·E | OpenAI 年度最新力作 GLIDE:新生代文本引导扩散模型原创 2023-02-18 09:42:49 · 626 阅读 · 0 评论 -
一文深度剖析扩散模型究竟学到了什么?
一文深度剖析扩散模型究竟学到了什么?原创 2023-02-17 22:48:35 · 354 阅读 · 0 评论 -
InstructPix2Pix: 一种无需微调新的快速图像编辑方法
InstructPix2Pix: 一种无需微调新的快速图像编辑方法原创 2023-02-17 21:44:03 · 316 阅读 · 0 评论 -
SINE: 一种基于扩散模型的单图像编辑解决方案
SINE: 一种基于扩散模型的单图像编辑解决方案原创 2023-02-17 21:11:49 · 352 阅读 · 0 评论