图像生成与AIGC发展史:图像生成、视频生成、代码生成
文章平均质量分 96
图像生成、视频生成、具身智能
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)
本文介绍了视觉Transformer(ViT)和Swin Transformer的发展历程及其在计算机视觉领域的应用。ViT通过将图像分割为16x16的块并作为Transformer输入,成功挑战了CNN在视觉领域的统治地位。文章详细解析了ViT的架构(Embedding层+Transformer Encoder+MLP Head)和与CNN的差异。随后介绍了Swin Transformer,它通过窗口设计和多尺度特征提取,解决了ViT在检测和分割任务中的局限性。Swin Transformer采用移动窗口原创 2025-08-22 22:37:43 · 3723 阅读 · 3 评论 -
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(原创 2024-12-29 00:20:05 · 15111 阅读 · 2 评论 -
2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveVLM、DriveMM
本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous DrivingDriveLM: Driving with Graph Visual原创 2024-08-12 19:00:54 · 22836 阅读 · 0 评论 -
视频生成Sora的从零复现:从Latte、Open-Sora(含1.0及其升级版)到StreamingT2V
目前比较接近sora的开源路线是:Stable Video Diffusion(关于SVD的介绍请看的第4部分]) + Stable Diffusion3的结构(SD3的详细介绍见的第4部分。原创 2024-03-19 15:51:36 · 8323 阅读 · 0 评论 -
Google发布Genie硬杠Sora(含Genie 2):通过大量无监督视频训练最终生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看似更强大(嗯,看似):它生成的虚拟世界自主可控。原创 2024-02-29 12:50:41 · 5416 阅读 · 0 评论 -
一文通透流匹配Flow Matching:作为扩散模型的变体,广泛应用于文生图和具身动作模型去噪中(含Rectified Flow的详解)
关于我为何关注到这个一致性模型,说来话长啊,历程如下AI绘画原理解析:从CLIP、BLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion在精读DALLE 3的论文时,发现其解码器用到了Consistency Models当然,后来OpenAI首届开发者大会还正式发布了这个模型,让我对它越发好奇Consistency Models的第一作者宋飏也证实了该模型是DALLE 3的解码器。原创 2024-02-27 20:19:57 · 15977 阅读 · 2 评论 -
视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等
真没想到,举例视频生成上一轮的集中爆发才过去三个月,没想OpenAI一出手,该领域又直接变天了自打2.16日OpenAI发布sora以来,不但把同时段Google发布的Gemmi Pro 1.5干没了声音,而且网上各个渠道,大量新闻媒体、自媒体(含公号、微博、博客、视频)做了大量的解读,也引发了圈内外的大量关注,很多人因此认为,视频生成领域自此进入了大规模应用前夕,好比NLP领域中GPT3的发布一开始,我还自以为视频生成这玩意对于有场景的人,是重大利好,比如在影视行业的;原创 2024-02-18 22:49:27 · 62888 阅读 · 36 评论 -
Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0
第一种是基础模式(Basic Mode),用户只需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。而达到这样拔群的视频生成效果,并没有依赖复杂的数据集和大规模的模型训练,PixelDance 在公开的 WebVid-10M 数据集上仅用 1.5B 大小的模型就达到了上述效果。),引发了开源社区的大量关注和讨论。迈出了关键性的一步,其生成结果的动态性显著优于目前现有的其它模型,引起了业界的关注。原创 2023-11-27 21:54:06 · 18750 阅读 · 4 评论 -
代码生成的原理解析:从Codex、GitHub Copliot到CodeLlama(用了NTK-aware)、CodeGeex
我们在这篇文章《》中的2.5节有提到,“2021 年7月,OpenAI发布Codex的论文《》,其中初始的Codex是根据120亿参数的GPT-3变体进行微调的,且通过对159GB的Python代码进行代码训练,后来这个120 亿参数的模型演变成OpenAI API中的code-cushman-001,具备较强的代码/推理能力”接下来,我们来看下Codex背后的原理到底是怎样的,即其是如何一步一步训练出来的。原创 2023-12-04 00:14:42 · 15115 阅读 · 5 评论 -
图像生成(AI绘画)的发展史:从DALLE、DALLE 2、DALLE 3到Stable Diffusion、SDXL、SD3(含ControlNet详解)
终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点确实非常非常多的朋友都看过我那篇SVM笔记,影响力巨大,但SVM笔记之后,也还是写了很多新的博客/文章滴,包括但不限于:xgboost、CNN、RNN、LSTM、BERT等今后基本每季度都有更新的计划,欢迎常来关于Stable Diffusion,可以先看下这篇的文章”(此篇文章也是本文的重要参考之一)原创 2023-06-22 00:13:58 · 31567 阅读 · 11 评论 -
图像生成的奠基与起源:从AE、VAE、VQ-VAE到扩散模型DDPM(含加噪、去噪全过程)、DDIM(含U-Net的简介)
2018年我写过一篇博客,叫:《》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如随着2019 CenterNet的发布,特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后,自此CV迎来了生成式下的多模态时代但看这些模型接二连三的横空出世,都不用说最后爆火的GPT4,便可知不少CV同学被卷的不行。原创 2023-04-30 10:56:28 · 44221 阅读 · 37 评论
分享