自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 VAR阅读笔记(Visual Autoregressive Modeling Scalable Image Generation via Next-Scale Prediction)

这篇文章提出了一种新的自回归模型框架——视觉自回归建模(VAR),其核心思想是通过粗到细的“下一个尺度预测”或“下一个分辨率预测”,与传统的自回归模型(通常是通过逐像素的光栅扫描方式进行“下一个标记预测”)有所不同。超越传统自回归模型,在不同数据集有性能提升。VAR模型在大规模扩展时表现出类似于大型语言模型(LLM)所观察到的幂律规律,且零样本泛化能力非常强,可以直接应用于下游任务,如图像修补、外推和编辑。扩展规律(Scaling Laws)和零-shot泛化。挑战自回归视觉模型的性能滞后。

2025-01-10 14:59:20 1098

原创 神经网络概念--梯度消失和梯度爆炸

是深度学习中的两个常见问题,尤其是在训练深层神经网络时。它们都与网络权重的梯度有关,这些梯度是通过反向传播算法计算出来的,用于网络权重的更新。

2024-01-08 16:49:03 997

原创 神经网络基础概念解释--感受野

感受野指的是在神经科学和深度学习中,特定神经元响应的空间范围。在深度学习的上下文中,尤其是在卷积神经网络中,它表示对于网络中一点输出,其对输入影响的区域大小。

2024-01-08 16:16:09 590

原创 论文阅读--MoVQ Modulating Quantized Vectors for High-Fidelity Image Generation

虽然两级Vector Quantized (VQ) 生成模型(例如 VQVAE-2)能够合成高保真度和高分辨率的图像,但它们的量化操作符将图像中相似的 patch 编码到相同的索引中,这可能导致使用现有解码器架构时,相邻区域出现重复产生的伪影。现有的 VQ-VAE 或 VQGAN 模型虽然性能出色,但也有其缺点。它们的第二阶段通常以自回归的方式建模为序列生成过程,逐个生成不同空间位置的离散潜码,这是一个非常耗时的推理过程。

2023-12-31 15:58:51 924 1

原创 论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

Diffusion model相比GAN可以取得更好的图片生成效果,然而该模型是一种自回归模型,需要反复迭代计算,因此训练和推理代价都很高。论文提出一种在潜在表示空间(latent space)上进行diffusion过程的方法,从而能够大大减少计算复杂度,同时也能达到十分不错的图片生成效果。扩散模型是一类概率模型,设计用于通过逐渐去噪正态分布变量来学习数据分布pxp(x)px,这相当于学习固定马尔可夫链长度TTT的逆过程。

2023-12-30 21:34:45 1295 1

原创 1×1卷积核的作用

卷积操作中,每一个输出通道都是通过对所有64个输入通道在相同空间位置(同一个宽度和高度)的像素进行加权求和,然后可能加上一个偏置项,来生成的。每个新的输出通道有自己的一组64个权重,这些权重决定了如何从输入的64个通道中融合信息。因此,通过这种方式,原先的64个通道被压缩或融合为16个通道。通过对所有输入通道的相同位置的像素进行加权求和,它可以将输入通道融合成较少的输出通道。卷积层来减少通道的数量,从64个减少到16个,提高网络效率和改变特征表示。,即宽度为32个像素,高度为32个像素,有64个通道。

2023-12-24 16:15:38 979 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除