
跟无神读视觉论文
文章平均质量分 80
此专栏收录笔者日常读论文接受洗礼的一些总结和小的感悟,欢迎关注攻读领域较为前沿的知识。
竹杖芒鞋序行
专攻AI相关内容,目前聚焦于大模型相关技术。
黑暗学渣硕一枚。
欢迎关注博主一起学习AI领域的相关知识,不定期会进行论文解读和算法题整理以及算法的核心面经总结。
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
展开
-
论文解读之SDXL: Improving Latent Diffusion Models forHigh-Resolution Image Synthesis
SDXL是SD的改进版本,采用了三倍更大的Unet主干网络(其增大的参数主要由于更多的注意力块和使用第二个文本编码器带来的更大的交叉注意力机制的内容)设计了多个新的限制方案,并且在多个比例上进行了训练。引进了一个完善模型——用来改善采样结果的真实性。原创 2024-11-10 21:01:35 · 513 阅读 · 0 评论 -
论文解读之mask2former
这是一个能够执行三大分割通用任务(语义、实例、全景)的网络第一次在三大任务上胜过每个任务的专用分割SOTA模型。原创 2024-11-08 15:29:57 · 2331 阅读 · 0 评论 -
论文解读之Image2image-turbo
image2image-turbo作为一个使用CycleGAN形式进行训练的图生图Diffusion的网络,主要解决了两方面条件扩散模型的显存局限性:1.由于迭代去噪过程而很慢的推理速度2.依赖成对数据的模型微调。原创 2024-11-01 11:08:20 · 424 阅读 · 0 评论 -
论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)
本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。原创 2024-10-29 20:43:06 · 1069 阅读 · 0 评论 -
较新(24.3)加速Diffusion模型推理的方法,附带参考文献
2.将原来的扩散模型作为教师,蒸馏到更快的少步学生网络。3.一些采用一致性模型训练。4.改用GAN做生成。原创 2024-10-18 20:02:05 · 667 阅读 · 0 评论 -
无神论文解读之ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models
ControlNet是一种能够控制模型生成内容的方法,能够对文生图等模型添加限制信息(边缘、深度图、法向量图、姿势点图等),在当今生成比较火的时代很流行。这种方法使得能够直接提供空间信息控制图片以更细粒度地得到想要的生成图片,这种方法能够以一个端到端的方式来实现这个挑战。先看看其主要方法,将原先的预训练网络冻结,然后做一个可训练的复制,再使用0初始化的1*1卷积( 保证开始训练时没有额外噪声加入进来)将这个复制的网络连成一个支路。原创 2024-10-05 12:41:54 · 666 阅读 · 0 评论 -
论文解读之Hunyuan-DiT
Hunyuan-DiT : A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding。原创 2024-07-28 23:33:09 · 629 阅读 · 0 评论 -
《Attention is all you need》之Transformer详解(尚有部分未完善,后续还会补充)
Transformer是编码器解码器模型的发展,是chatGPT的前身也是应用到现在很多LLMs上的重要模型之一,对机器学习尤其是深度学习的影响很深远。每一个从事AI方面无论是否是确切的深度学习领域的从业者都比较深入地了解此模型。今天,无神带大家解读其出处——发表自机器学习三大顶会之一的偏向学术的NIPS《Attention is all you need》。本论文由谷歌的学者所做。模型由左边的编码器和右边的解码器构成,图示的Nx代表图示的结构重复了多少次,其N都是6,所以该重复结构有6个。每一层(图示左边原创 2023-09-27 23:25:43 · 131 阅读 · 0 评论