大模型基础
文章平均质量分 94
行如流水
具身智能算法工程师一枚,记录自己看的一些模型和论文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BLIP和BLIP2解析
BLIP与BLIP-2是多模态视觉语言预训练模型,旨在解决视觉与语言对齐问题。BLIP通过统一编码器-解码器架构实现图文理解与生成,但存在端到端训练成本高的问题。BLIP-2引入轻量级Q-Former作为桥梁,采用两阶段训练策略:第一阶段通过对比学习、匹配任务和文本生成任务训练Q-Former提取关键视觉特征;第二阶段将Q-Former输出适配到冻结的大型语言模型(LLM),实现高效的多模态推理。该方案显著降低了训练成本,同时保持优异性能,支持多种LLM架构适配。核心创新在于Q-Former的设计,能有效对原创 2025-12-17 19:23:43 · 826 阅读 · 0 评论 -
多模态模型CLIP详解
CLIP(Contrastive Language–Image Pretraining)是 OpenAI 提出的一种多模态模型,通过对大量“图像–文本”对进行对比学习训练,使模型能够将图像和自然语言映射到同一个语义空间中。它不需要为每个视觉任务单独标注数据,而是通过理解文本描述来完成图像分类、检索和零样本学习等任务,从而具备很强的泛化能力和跨模态理解能力原创 2025-12-17 18:47:30 · 991 阅读 · 0 评论 -
能量模型(EBM)基础知识
能量模型(EBM)通过能量函数刻画数据分布,利用玻尔兹曼分布建模真实数据生成过程。其核心思想是让真实数据对应低能量状态(高概率),噪声数据对应高能量状态(低概率)。EBM通过极大似然估计优化,但计算配分函数Z困难,因此采用对比散度(CD)算法进行梯度优化,使训练数据概率高于采样数据。采样过程借助朗之万动力学,通过随机梯度上升从复杂分布中生成样本。该方法结合了物理系统的能量最小化原理与深度学习的表达能力,为生成模型提供了一种灵活的框架。原创 2025-08-04 10:43:59 · 776 阅读 · 0 评论 -
一文搞懂ViT模型
ViT(Vision Transformer) 是一种将 Transformer 模型用于计算机视觉任务中的创新架构。ViT 只使用了 Transformer 的编码器 部分进行特征提取和表征学习。核心思想是将传统的(CNN)的卷积操作替换为 Transformer 的注意力机制,借鉴 Transformer 模型在自然语言处理(NLP)中的成功经验,用于图像分类任务。原创 2025-08-04 09:12:07 · 1592 阅读 · 0 评论 -
AE、VAE和VQVAE一文详解
自编码器(AE)与变分自编码器(VAE)是两类重要的生成模型。AE通过编码-解码结构实现数据压缩与重建,但无法生成新样本。VAE通过引入概率分布改进AE,将潜在变量建模为标准正态分布,使模型具备生成能力。VAE的核心是最大化证据下界(ELBO),包含重构项和KL散度项,前者确保生成质量,后者约束潜在空间分布。通过重参数化技巧解决梯度问题,VAE能够从概率分布中采样生成新数据,克服了AE的局限性。原创 2025-07-31 20:25:51 · 1181 阅读 · 0 评论 -
一文详解DiT模型
DiT模型将扩散模型(DDPM)的U-Net替换为Transformer架构,显著提升图像生成质量。DiT通过结合VAE编码器和Transformer,在潜在空间实现高效扩散过程,支持多模态条件融合(如时间步和类别标签。实验表明,DiT具备强扩展性,增大参数量或数据质量可稳步提升生成性能。原创 2025-07-10 15:57:17 · 2623 阅读 · 0 评论 -
扩散模型(DDPM)详解
扩散模型通过前向加噪和逆向去噪过程实现图像生成。前向过程逐步添加高斯噪声,将原始图像转化为标准正态分布;逆向过程利用神经网络学习去噪步骤,从噪声中重建图像。该方法能有效将噪声分布转化为目标图像分布,实现高质量生成。模型优势在于无需显式定义复杂分布,通过噪声调度和神经网络学习即可完成生成任务。原创 2025-06-29 00:42:02 · 1459 阅读 · 0 评论 -
transformer详解:原理和应用
Transformer 模型是一种基于注意力机制的深度学习模型,Transformer 彻底改变了自然语言处理(NLP)领域,并逐渐扩展到计算机视觉(CV)等领域。Transformer 的核心思想是完全摒弃传统的循环神经网络(RNN)结构,仅依赖注意力机制来处理序列数据,从而实现更高的并行性和更快的训练速度。原创 2025-06-28 11:40:36 · 2316 阅读 · 0 评论
分享