猴猴猪猪
这个作者很懒,什么都没留下…
展开
-
大模型隐空间推理论文阅读笔记
coconut等大模型隐空间推理阅读笔记原创 2024-08-17 17:00:43 · 967 阅读 · 1 评论 -
当自回归遇到Diffusion
自回归建模tokens之间的相互依赖 + Diffusion Loss建模每个token的分布,能够不被约束在向量量化(vector-quantized)的表示内,而在continuous-valued tokens框架下实现。原创 2024-08-03 12:10:40 · 280 阅读 · 1 评论 -
ConsiStory:Training-Free的主体一致性生成
NVIDIA一篇效果惊艳的training free的主体一致性生成工作,PPT详解原创 2024-03-17 21:02:44 · 502 阅读 · 0 评论 -
Sora核心之一:当Diffusion遇到Transformer,DiT的前世今生
Diffusion与Tranformer结合的代表性文章原创 2024-02-19 17:02:30 · 4227 阅读 · 2 评论 -
Sora核心之一:可变时长、分辨率、尺寸(着重探讨NaViT)
Sora关于可变分辨率尺寸的代表性参考文献NaViT详细解读,Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution原创 2024-03-02 12:26:45 · 1065 阅读 · 0 评论 -
SORA大模型的一点分析与理解
简要分析SORA的技术博客原创 2024-02-18 14:33:48 · 402 阅读 · 0 评论 -
AIGC之条件可控生成综述:ControlNet, T2I Adapter, Composer
题目:机构:论文:代码:任务:特点:方法:前置相关工作:同期相似性工作:原创 2023-07-09 14:34:14 · 643 阅读 · 0 评论 -
Muse: 谷歌基于Transformer的文生图模型
谷歌提出的一种利用transformer做文生图的模型,借用VQ-GAN生成离散编码,基于文本 + masking用transformer做掩码建模以及预测,推理时用并行解码(非自回归),得到效果与效率都很好的文生图模型。原创 2023-09-04 20:59:11 · 982 阅读 · 0 评论 -
DALL-E 3: 管窥蠡测OpenAI open的一个文生图小口
OpenAI公布的DALL-E技术论文解读与分析原创 2023-11-05 18:25:24 · 361 阅读 · 0 评论 -
StyleDrop: 谷歌关于图像风格提取的魔法
谷歌基于Muse这样一种transformer结构的文生图基座模型,利用adapter tuning + iterative training with feedback,可以从一张或者几张图像中提取指定风格并生成指定内容,效果惊艳!原创 2023-09-06 10:04:08 · 829 阅读 · 0 评论 -
AIGC之论文笔记DALL-E
机构:openai人们常说自然语言处理是人工智能皇冠上的明珠,这些年transformer以及大规模语言模型LLM的蓬勃发展,让这颗明珠更加熠熠生辉。除此之外,ViT,MAE等方法也充分验证了图像在transformer以及大规模预训练之路上的可行性,那么近一步的思考,就是如何跨越图像,文本等多种模态的鸿沟,让机器真正实现智能?理解人类生活中存在的各种模态?接收人类的指令,与物理世界交互?实现视,听,说,触等人类感知在机器上的应用。原创 2023-03-29 22:32:34 · 1182 阅读 · 0 评论