自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

倚杖柴门外,临风听暮蝉。

一起变成更优秀的自己

  • 博客(53)
  • 收藏
  • 关注

原创 BLIP-3

本文提出了BLIP-3框架,这是一个开放的大型多模态模型(LMM)开发系统。该框架包含4B和14B参数模型,采用简化架构设计,使用视觉token采样器替代Q-Former,并优化训练目标。研究重点在于数据整理和规模扩展,新发布了三个大规模数据集:BLIP3-OCR-200M、BLIP3-GROUNDING50M和BLIP3-OCR-HD-30M。模型经过两阶段预训练和微调,支持任意分辨率图像处理和多图像交错输入。实验表明,BLIP-3在同类开源模型中表现优异。研究开源了模型、数据集和训练代码,旨在促进LMM

2026-01-05 16:56:24 839

原创 Reinforcement Learning from Human Feedback,RLHF

语言模型更大并不能使它们更好地遵循用户的意图。例如,LLM可能生成不真实的、有害的或对用户没有帮助的输出。换句话说,这些模型与它们的用户没有对齐。在本文中,通过使用人类 反馈进行微调,在广泛的任务中使语言模型跟用户意图对齐。从一组标记器编写的提示和通过OpenAI API提交的提示开始,我们收集了一个数据集,它标注表示的是期望的模型行为,然后使用这个数据集对GPT-3进行有监督学习,进行模型微调。然后我们收集对模型输出进行排名的数据集,使用人类反馈进行强化学习来进一步微调这个有监督的模型。

2025-12-18 18:55:08 991

原创 Flaminggo

通过构建少量标注示例使得模型能够迅速适应新任务,这是多模态机器学习研究中的一项开放性挑战。我们推出了 Flamingo 这一系列具备这种能力的视觉语言模型(VLM)。我们提出了关键的结构创新:(i)将强大的预训练纯视觉模型和纯语言模型相连接;(ii)处理任意交错的视觉和文本数据序列;(iii)无缝地将图像或视频作为输入。得益于其灵活性,Flamingo 模型能够在包含任意交错文本和图像的大规模多模态网络语料库上进行训练,这是赋它们在上下文中few-shot学习能力的关键。

2025-12-17 19:14:54 972

原创 InstructionBLIP

本文提出InstructBLIP框架,通过视觉语言指令微调实现通用多模态模型。研究基于预训练的BLIP-2模型,收集26个公开数据集转换为指令格式,涵盖11类任务。关键创新包括指令感知的视觉特征提取机制和平衡训练策略。实验表明,在13个held-out数据集上均达到最先进的zero-shot性能,显著优于BLIP-2和Flamingo模型。特别在ScienceQA任务上取得90.7%准确率。研究证实指令微调(而非多任务学习)是提升zero-shot泛化能力的关键因素。所有模型均已开源,为多模态AI发展提供了

2025-12-16 15:19:33 843

原创 BEIT简介

本文提出BEIT模型,受BERT启发将掩码语言建模思想应用于视觉Transformer预训练。方法包含两种图像表示:图像块作为输入,视觉标记作为输出目标。通过离散变分自编码器学习视觉标记字典,在预训练时随机屏蔽图像块,让模型预测被屏蔽区域的视觉标记。预训练完成后,通过在BEIT上添加任务层并进行微调,可应用于图像分类和语义分割等下游视觉任务。该方法有效解决了直接将BERT风格预训练应用于图像数据的挑战,避免了像素级恢复带来的模型能力浪费问题。

2025-12-08 18:12:36 870

原创 图像退化模型

本文探讨了图像超分辨率任务中的模糊核问题。传统超分任务假设模糊核为预设的双三次下采样核,而实际退化过程复杂多样,导致"核不匹配"问题:预设核过弱会产生模糊结果,过强则产生振铃伪影。为解决这一问题,研究提出了多种模糊核建模方法:1)高斯模糊核,包括各向同性和各向异性变体;2)广义高斯分布,通过形状参数β控制分布形态;3)随机二元高原核,通过组合不同类型高原核增强退化多样性。文中详细阐述了这些核的数学定义、参数设置和实现方法,并提供了对应的Python代码实现。这些方法为盲超分任务提供了更贴

2025-12-05 13:36:39 964

原创 Camer算法相关背景知识

本文系统介绍了数字图像处理中的关键技术。首先阐述了CCD与CMOS传感器的成像原理及差异,重点分析了全局快门与卷帘快门的特性。随后详细讲解了RAW与YUV两种图像数据格式的特点及应用场景。在算法处理方面,深入探讨了黑电平校正、自动白平衡、去噪、超分辨率重建、Demosaic等核心技术的原理与实现方法。特别对HDR成像技术进行了全面分析,包括多帧合成和单帧实现方案。此外,还介绍了图像配准算法、色调映射、镜头阴影校正和颜色校正矩阵等关键技术。全文从传感器物理特性出发,贯穿整个图像处理流程,为数字图像处理领域提供

2025-11-23 20:14:44 903

原创 Just Image Transformers,JiT

摘要:本文重新审视扩散生成模型的设计范式,指出当前主流方法偏离了直接预测干净图像的原始目标。基于流形假设,研究提出x-预测方法能更高效地处理高维数据,而传统ϵ/v预测在高维空间易失效。实验表明,纯视觉Transformer架构结合x-预测在ImageNet多个分辨率下均表现优异(256×256 FID=4.37),且无高维灾难性退化。大模型在更高分辨率下优势更明显(512×512 JiT-G FID=1.78)。该研究为扩散模型在高维空间的优化提供了新思路。

2025-11-21 18:46:31 1551

原创 BLIP-2

BLIP-2提出了一种高效的视觉语言预训练方法,通过轻量级Querying Transformer(Q-Former)桥接冻结的图像编码器和语言模型。Q-Former包含共享自注意力层的图像和文本Transformer模块,使用32个可学习查询提取视觉特征。训练分为两阶段:第一阶段联合优化图像对比学习、生成和匹配任务;第二阶段将查询嵌入投影后作为软提示输入冻结LLM,引导生成语言。该方法通过信息瓶颈机制传递关键视觉信息,有效缓解多模态对齐中的灾难性遗忘问题,支持解码器和编码器-解码器两类LLM架构。

2025-11-20 09:43:28 669

原创 MoE/Sparsely-Gated MoE

混合专家模型(MoE)由Jordan和Jacobs于1991年提出,其核心是通过多个专业化子模型(专家)处理不同任务,由门控网络分配权重。近年随着稀疏门控机制与Transformer结合(如GPT-4、SwitchTransformer),MoE技术焕发新活力。关键进展包括:1)Google的SwitchTransformer(1571B参数)展示更高效率;2)GShard首次将MoE拓展到Transformer,采用top-2门控和跨设备分片;3)SwitchTransformer简化路由算法,采用单专家

2025-11-19 15:10:52 756

原创 旋转位置编码(Rotary Position Embedding,RoPE)

本文介绍了旋转位置编码(RoPE)技术及其在提升Transformer模型性能方面的应用。RoPE通过旋转矩阵将相对位置信息融入自注意力机制,兼具绝对和相对位置编码的优点,具有长度灵活、距离衰减和线性兼容三大优势。文章详细阐述了RoPE的工作原理,包括复数表示、二维和多维空间的旋转矩阵实现方式,并与其他位置编码方法(如正弦编码和可学习嵌入)进行了比较。RoPE已被成功应用于LLaMA、GLM等流行模型中,特别适合处理具有明显顺序依赖性的任务。

2025-11-13 22:10:48 848

原创 Diffusion VS Flow Matching

在生成模型领域,‌‌和‌‌是两种重要的生成方法,它们在建模数据分布和样本生成上有不同的技术路径。Flow Matching 和Diffusion是很像的,很多时候是等价的。比如,Flow Matching使用Euler的采样等价于使用DDIM采样器的Diffusion。

2025-11-10 21:30:06 869

原创 Uformer

Uformer是一种基于Transformer的图像修复模型,将U-Net的卷积层替换为LeWin Transformer块,适用于去噪、去雨等多种任务。其核心创新包括:1)LeWin Transformer采用基于窗口的自注意力降低计算量,并加入深度卷积增强局部特征;2)通过三个跨层连接实现编码器-解码器信息传递。模型包含多层编解码结构,每层通过下采样/上采样变换特征图尺寸,并采用残差连接输出最终结果。实验证明该模型在多种图像修复任务中表现优异。关键创新点是融合了窗口注意力机制和局部卷积,兼顾全局和局部特

2025-11-03 15:38:49 937

原创 传染病传播模型统计

本文介绍了传染病传播的几种数学模型。首先讨论了SI模型(仅含易感者S和感染者I),分析表明最终全部人群都会被感染。其次研究SIS模型(含康复后可再感染者),指出当基本再生数R0>1时疾病会持续传播。然后探讨SIR模型(含获得永久免疫者),指出所有感染者最终都将康复。最后分析了总人口变化的Endemic SIR模型和SEIR模型(含潜伏期者E),讨论不同参数下疾病灭绝或持续传播的条件。这些模型通过微分方程描述了传染病传播的动态过程,为预测疫情发展提供了理论依据。

2025-10-18 13:38:48 914

原创 RAE——VAE的终结者

在视频或者图像生成领域,SD 架构占据主导位置,目前多数模型都依赖VAE构建潜空间,然后在潜空间中进行扩散。而RAE的提出将终结VAE构建潜空间的时代。RAE探索用预训练的表示编码器(例如 DINO、SigLIP、MAE)与训练好的解码器相结合来替代变分自编码器(VAE),形成了表示自编码器(RAE)。这种模型既能实现高质量的重建,又能提供语义丰富的潜空间,同时具备可扩展的 Transformer 架构特性。

2025-10-15 19:02:46 1216

原创 视频模型的主流结构

本文概述了视频处理中的主流深度学习架构。双流网络通过引入光流提取时序信息,将RGB和光流分别处理;3D卷积直接学习时空特征但参数量大,I3D通过扩展2D网络结构解决了这一问题;R(2+1)D将3D卷积分解为空间和时间卷积以降低复杂度;视频Transformer(如TimeSformer和VideoSwin)则采用自注意力机制处理时空信息。这些方法各有优势,在视频分类等任务中展现出色性能。

2025-10-14 15:35:32 1391

原创 开源多模态模型——Molmo

开源多模态模型Molmo通过全栈开源方案突破技术垄断,其核心创新在于构建了高质量数据集PixMo(包含712k详细图像标注和2.3M点标注数据)和优化训练策略。采用标准架构(ViT编码器+LLM)配合重叠裁剪、注意力池化等改进,显著提升细粒度理解能力。两阶段训练流程(预训练+混合微调)在20+基准测试中表现优异,为开源社区提供了不依赖合成数据的VLM研发新范式。

2025-10-13 15:15:09 1148

原创 DINO简介

本文研究了自监督预训练对Vision Transformer(ViT)特征的影响,提出了一种名为DINO的无标签自蒸馏方法。研究发现,自监督ViT特征具有独特性质,其自注意力图能准确捕捉物体轮廓,效果接近专业分割方法。DINO延续了BYOL框架,通过引入centering操作实现ViT的稳定训练。实验表明,动量编码器、multi-crop数据增强和更小的ViT patches对性能提升至关重要。该工作为自监督ViT在计算机视觉中的应用提供了新思路。

2025-09-25 13:28:53 516

原创 强化学习简介

本文介绍了强化学习的基本概念和要素。强化学习涉及智能体与环境交互,通过状态、动作、奖励等要素进行学习和决策。智能体通过策略(确定性或随机性)选择动作,环境根据动作改变状态并反馈奖励。文章阐述了马尔可夫决策过程、轨迹、总回报(折扣回报)等概念,并详细讨论了目标函数(最大化期望回报)和值函数(状态值函数和Q函数)。值函数用于策略评估和优化,通过贝尔曼方程进行迭代计算。强化学习的目标是找到最优策略以获得最大长期回报。

2025-09-24 18:59:16 1431

原创 手机镜头参数介绍

【摘要】画幅指相机感光元件尺寸,大底相机(感光元件较大)具有画质优、噪点低和虚化效果强的特点。焦段反映镜头视角范围,分为超广角、广角、标准、中焦、中长焦等类型,不同焦段适用于不同拍摄场景,其中标准镜头焦距与画幅对角线相近。光圈控制进光量,f值表示大小,大光圈(f值小)景深浅,适合人像等需要背景虚化的场景。这三要素——画幅、焦段和光圈共同影响成像效果。

2025-09-22 21:42:35 1003

原创 ISP——HDR

动态范围(DR)指系统捕捉最强与最弱信号的能力,在影像中表现为亮暗细节保留能力,常用分贝或比特表示。计算方式分为理论值(基于传感器位深)和实际值(考虑噪声影响)。HDR技术通过多帧合成或单帧特殊处理(如像素分组曝光)来扩展动态范围,解决普通相机在高反差场景中亮部或暗部细节丢失的问题,实现更接近人眼视觉的效果。常见实现方式包括多帧HDR、BME-HDR等技术,各具特点与适用场景。

2025-09-19 13:38:16 1867

原创 Norm汇总

本文系统介绍了深度学习中常用的归一化技术及其特性。主要包括:批量归一化(BN)通过标准化每层输入加速训练收敛;层归一化(LN)适用于RNN等序列模型;实例归一化(IN)独立处理样本特征,适用于风格迁移;组归一化(GN)结合通道分组,解决小批量问题;自适应归一化(AdaIN/adaLN)实现特征对齐;权重归一化(WN)直接优化网络参数。这些方法在计算维度、适用场景和性能表现上各具特点,BN在N/H/W维度计算,LN在C/H/W维度,IN在H/W维度,而GN则进行通道分组处理。合理选择归一化方法能有效提升模型训

2025-09-17 16:37:51 1478

原创 ISP Pipeline

本文介绍了手机摄像系统中图像信号处理器(ISP)的核心功能与技术细节。主要内容包括:1) CMOS与CCD传感器的差异,重点分析卷帘曝光与全局快门的特点;2) RAW图像处理流程,涵盖Bayer模式、Quad Bayer排列及Hex去噪技术;3) HDR实现方式,对比时域HDR与单帧HDR技术,解析双增益输出等创新方案;4) 色调映射算法,区分全局(GTM)与局部(LTM)处理方法;5) 镜头阴影校正技术,解决亮度衰减和色差问题。文章系统阐述了从传感器采集到图像输出的完整处理链,揭示了手机摄影背后的关键技术

2025-09-15 15:11:02 1162

原创 BYOL简介

BYOL提出了一种无需负样本的对比学习方法,通过双分支结构实现自监督学习。在线分支和目标分支分别对同一图像的不同增强视图进行编码,使用梯度更新和动量更新的编码器生成特征。通过预测头将在线分支的特征映射为对目标分支特征的预测,采用MSE损失进行优化。训练完成后仅保留在线编码器用于下游任务特征提取。该方法创新性地将对比学习转化为预测问题,避免了传统对比学习对负样本的依赖。

2025-09-15 11:08:12 361

原创 Inva Spread/SimCLR

本文介绍了InvaSpread和SimCLR两种自监督对比学习方法。InvaSpread的核心思想是通过数据增强保持同一图像实例的特征不变性,同时区分不同实例,采用端到端训练方式,直接从mini-batch中获取正负样本,避免了额外存储结构。SimCLR在InvaSpread基础上进行了三点改进:1)增加MLP投影头(projector);2)优化数据增强策略;3)使用更大的batch size(8192),使ImageNet分类准确率提升近10个百分点。两种方法都采用同一batch内其他样本作为负样本,但

2025-09-14 12:53:38 1024

原创 BLIP简介

BLIP是一种新型视觉语言预训练框架,通过多模态混合编码器-解码器(MED)结构实现理解和生成任务的双重能力。MED采用三种模式运行:单模态编码、图像文本编码和图像文本解码,通过对比学习、匹配和语言建模三目标联合预训练。创新性提出CapFilt方法,利用字幕生成和过滤模块从噪声网络数据中提取优质图文对,显著提升数据质量。实验表明BLIP在图像检索、字幕生成和VQA等任务上达到SOTA性能,并展现出优秀的零样本泛化能力。相关代码已开源。

2025-09-12 11:50:20 1293

原创 ALBEF(Align Before Fuse)

ALBEF是由DAMO学院提出的多模态预训练模型,采用"先对齐后融合"策略提升视觉-语言任务性能。模型通过对比学习实现图像与文本嵌入对齐,再融合生成丰富表示。核心架构包括ViT图像编码器、BERT文本编码器,以及对齐、融合模块,并引入MIM和MLM增强鲁棒性。在图像-文本检索、视觉问答等任务中表现优异。

2025-09-11 21:46:41 1226

原创 MAE简介

MAE(掩码自编码器)是一种基于ViT架构的视觉自监督学习方法,灵感来自BERT的掩码语言模型。其核心设计包括:1)非对称编码器-解码器结构,编码器仅处理未掩码图像块以提升效率;2)采用高比例掩码(如75%)来构建具有挑战性的学习任务。训练时,模型通过重构被掩码的图像块像素,使用MSE损失进行优化。该方法显著提升了训练效率(3倍以上加速)和模型性能,有望推动Transformer在CV领域的广泛应用。预训练后仅需编码器即可提取图像特征用于下游任务。

2025-09-10 09:50:14 1103

原创 HunyuanVideo

HunyuanVideo是由腾讯公司开发的开源视频生成大模型。该模型基于深度学习技术,参数规模达130亿,支持文本生成视频、图像生成视频及视频编辑功能,具备物理规律模拟和高动态画面生成能力。它采用3D因果变分自编码器架构和全注意力机制,支持480P至720P分辨率视频生成,应用于广告创作、短视频制作等领域。

2025-09-09 09:21:31 1978

原创 MoCo系列简介

MoCo系列方法的演进与创新 摘要:MoCo系列方法通过创新性设计推动了对比学习的发展。MoCo-v1提出队列式动态字典和动量编码器,解决了传统对比学习中字典大小受限和特征一致性问题。MoCo-v2通过引入MLP投影头和更丰富的数据增强,性能超越SimCLR。MoCo-v3融合MoCo-v2和SimSiam的优点,采用对称性损失和预测头设计,并在ViT架构应用时发现冻结第一层可有效解决训练不稳定问题。该系列工作通过持续创新,在自监督学习领域取得重要突破,为后续研究提供了宝贵经验。

2025-09-08 09:31:36 1058

原创 ISP——AWB

人眼具有颜色恒常性,可以避免光源变化带来的颜色变化,但是图像传感器不具备这种特性,从而造成色偏,白平衡就是需要校正这个颜色的偏差;颜色恒常性:颜色恒常是指在照度发生变化的条件下人们对AWB()即为自动白平衡,就是通过某种算法将不同色温的环境光下成像后的白色还原成真实的白色(通常为自然日光环境光下的人观察到的白色)。灰度世界算法基于一个假说:任一幅图像,当它有足够的色彩变化则它的RGB分量的均值会趋于相等(即灰色)算法步骤:计算各个颜色通道的平均值;寻找一个参考值K,一般情况选取Gmean。

2025-09-07 12:58:50 463

原创 Movie Gen(Meta)

MovieGen是一系列支持高清视频生成的多模态底座模型,可生成1080p视频、同步音频,并支持指令编辑和个性化视频生成。模型采用时空压缩潜在空间训练,通过时间自编码器(TAE)扩展2D参数至3D,结合多文本编码器提升语义理解。基于FlowMatching框架训练,采用三阶段预训练(图像→视频→高分辨率)和微调优化生成质量。该300亿参数模型在文本/视频/音频生成任务上达到SOTA水平,通过数据过滤和模型平均方法显著提升运动一致性与美学表现。

2025-09-07 11:25:23 1230

原创 LoRA( Low-Rank Adaptation )

LoRA是一种高效微调预训练模型的技术,通过低秩矩阵分解减少参数更新量。它将权重更新表示为两个低秩矩阵乘积,显著降低训练参数数量,提升计算效率并节省内存。LoRA保持预训练知识不变,适用于多种任务和架构,在自然语言处理等领域应用广泛。其核心优势在于:1)低秩分解提高参数效率;2)保留预训练知识;3)适应性强。研究表明,大模型存在过参数化现象,特征内在维度往往较小,这为LoRA的有效性提供了理论支持。相比串行的Adapter方法,LoRA采用并行结构更具优势。

2025-09-06 12:14:42 469

原创 Instance Discrimination (InstDisc)

本文提出InstDisc方法,通过对比学习实现无监督视觉表征学习。核心思想是将每张图像视为独立类别,使用CNN编码128维特征存入Memory Bank。训练时采用噪声对比估计(NCE)损失,将多分类转化为二分类问题,从Memory Bank采样负样本。为解决特征不一致问题,引入Proximal Regularization进行动量更新。测试时通过KNN分类。实验采用ResNet50,batch=256,负样本4096个,τ=0.07等超参数,为后续MoCo奠定基础。该方法创新性地利用Memory Bank

2025-09-06 12:05:25 797

原创 CMOS Sensor

CMOS图像传感器(CIS)是摄像头的核心元件,采用CMOS工艺制造,具有功耗低、速度快的特点。其基本感光单元为"像点",通过Bayer滤光膜实现彩色成像,每个像点仅感应一种颜色。CMOS传感器采用卷帘曝光(rolling shutter)方式逐行读取数据,可能产生运动物体的"果冻效应",而CCD传感器则采用全局快门(global shutter)实现同步曝光。传感器将光信号转换为电信号后,经模拟处理和A/D转换输出数字图像信号。

2025-09-06 10:22:14 1243

原创 Info NCELoss

本文介绍了三种常用的损失函数:Softmax用于多分类问题的概率归一化;NCE Loss通过噪声对比估计将多分类转化为二分类问题;InfoNCE Loss是NCE的改进版本,将对比学习视为多分类任务(K为负样本数)。三者的核心区别在于:Softmax直接处理类别概率,NCE Loss通过二分类对比数据与噪声,而InfoNCE Loss结合了多分类思想,通过温度系数控制负样本区分度。MoCo框架使用InfoNCE Loss,将其视为K+1类的交叉熵分类任务。

2025-09-05 09:54:20 465

原创 ControlNet

ControlNet提出了一种在文本到图像扩散模型中添加条件控制的方法。该方法通过创建预训练模型的可训练副本和锁定副本,使用"零卷积"层连接两者,实现特定任务学习的同时保留原有知识。"零卷积"层初始参数为零,通过训练逐步优化。这一框架支持多种空间语义条件控制,在保留预训练模型能力的基础上实现更精细的生成控制。

2025-09-05 09:39:09 333

原创 StableSR

StableSR提出一种将Diffusion先验嵌入超分辨率任务的方法,通过微调轻量级时间感知编码器和特征调整层来保留原始Diffusion模型的先验知识。该方法采用时间感知特征为不同迭代步骤提供自适应指导:早期强指导以保持结构,后期弱指导以确保保真度。为抑制生成随机性,引入可控特征包装模块(CFW)细化输出,并采用渐进式聚合采样策略处理任意分辨率图像,通过分块处理和边界融合保证连贯性。该方法仅以低分辨率图像为条件,对原始StableDiffusion做最小修改,有效利用了其丰富的先验知识。

2025-09-05 09:33:28 1372

原创 CodeFormer

CodeFormer基于深度学习技术,特别是人脸复原模型,可以轻松修复和增强面部图像。它的工作原理主要包括以下三个步骤:通过自动编码器实现人脸的变换,包括色彩化、清晰化、去马赛克修复等功能。这一步骤使得CodeFormer能够对人脸图像进行高质量的和采用了预训练VQGAN离散码本空间的方法,将人脸复原任务转成Code序列的预测任务,大幅度降低了复原任务映射的不确定性。同时,VQGAN的码本先验也为复原任务提供了丰富的人脸细节,使得复原的人脸更加真实通过。

2025-09-05 09:32:59 649

原创 PromptTuning

加载数据集,并为输入数据设计Prompt。

2025-09-04 15:05:22 925

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除