mingo_敏
这个作者很懒,什么都没留下…
展开
-
深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models
在视觉语言模型(VLM)中,提升输入图像分辨率是增强模型性能的关键,尤其在富文本图像理解任务中尤为显著。然而,主流视觉编码器如视觉 Transformer(ViT)在高分辨率场景下,因标记数量爆炸式增长和编码延迟居高不下而效率骤降。针对不同操作分辨率,VLM 视觉编码器的优化可聚焦于两大核心维度:降低编码延迟,以及最小化传递给大型语言模型(LLM)的视觉标记数量,从而实现整体延迟的系统性优化。原创 2025-05-28 15:09:55 · 277 阅读 · 0 评论 -
深度学习论文: Describe Anything: Detailed Localized Image and Video Captioning
与传统图像描述相比,详细本地化字幕(DLC,Detailed Localized Captioning)有着显著差异。传统图像描述往往只是对整个场景进行粗略概括,而 DLC 则致力于深度挖掘用户指定区域的细微之处。其核心目标不仅在于识别对象的名称或类别,更着重于捕捉诸如纹理、色彩图案、形状、特性以及各类独特视觉特征等微妙属性。可描述一切模型(DAM)在生成图像和视频中物体的详细描述方面表现卓越。原创 2025-04-30 15:46:20 · 225 阅读 · 0 评论 -
深度学习论文: Autoregressive Pre-training of Large Vision Encoders
跨模态生成架构设计层级化视觉-文本编码器-解码器结构,采用因果掩码机制实现图像块与文本令牌的双向信息流动。视觉编码器结合动态前缀注意力,文本解码器融合SwiGLU激活与RMSNorm归一化,提升跨模态特征交互效率。统一目标函数提出多模态序列生成目标函数,通过像素级MSE(图像)和交叉熵(文本)损失联合优化,α超参数平衡模态监督。突破传统对比学习局限,直接通过生成任务增强跨模态语义一致性。高效训练策略采用混合精度训练与动态序列打包技术,在120亿图文对上实现高效训练。原创 2025-04-02 14:53:03 · 175 阅读 · 0 评论 -
深度学习论文: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
在 OCR 技术领域,传统方法与基于大型视觉语言模型(LVLM)的方案难以满足人们对光学字符处理日益多元的需求。为突破这一困境,我们创新提出通用 OCR 理论 ——OCR - 2.0,旨在构建新型 OCR 模型,推动该技术迈向新高度。端到端架构:摒弃传统 OCR - 1.0 模型复杂的多模块流水线,采用统一架构,简化流程,降低维护成本,让初学者也能轻松掌握,极大提升系统易用性与扩展性。原创 2025-03-24 16:24:01 · 209 阅读 · 0 评论 -
深度学习论文: TinySAM: Pushing the Envelope for Efficient Segment Anything Model
最近,分割任意模型(SAM)凭借其强大的分割能力,在计算机视觉领域引发广泛关注,众多基于预训练 SAM 的后续工作开发出各种应用,于下游视觉任务中性能斐然。然而,SAM 架构复杂,对计算资源需求大,这严重限制了它在计算资源受限的边缘设备上的应用。为解决这一问题,进一步推动高效分割任意模型的发展,本文提出了一个完整框架以构建轻量级的分割任意模型 TinySAM,使其在最大程度保留强大零样本性能的同时,大幅降低计算成本。硬挖掘全阶段知识蒸馏。原创 2025-01-14 14:51:46 · 207 阅读 · 0 评论 -
深度学习论文: Efficient Track Anything
本文探讨了简化的非层级图像编码器在视频对象分割和目标追踪中的应用。提出了利用轻量级ViT图像编码器(如ViT-Tiny/-Small)来简化SAM 2,同时保持高效性能。此外,引入了一种高效的跨注意力机制来优化内存模块,这一机制利用了内存空间标记的局部特性,以粗略的内存空间标记作为执行跨注意力的有效代理。实验结果表明,这种方法是原始内存模块的一个有效替代。在视频和图像分割基准测试中进行了广泛的实验评估,包括MOSE、DAVIS、LVOS、SA-V和SA-23。原创 2024-12-11 11:26:33 · 239 阅读 · 0 评论 -
深度学习论文: AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One
AM-RADIO是一个由英伟达精心打造的视觉基础模型框架,它巧妙地将CLIP、DINOv2及SAM等多个预训练的视觉基础模型的强大能力融为一体,从而赋予了自身卓越的表征能力。尤为值得一提的是,这一框架在几乎不增加任何额外成本的前提下,成功实现了SOTA(State-of-the-Art)级别的零样本分类与开集实例分割性能,这一成就无疑令人瞩目。原创 2024-10-17 11:57:34 · 441 阅读 · 0 评论 -
深度学习论文: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
以往的开放集物体检测方法依赖于文本提示,虽然能够有效地概括常见物体的抽象概念,但在数据稀缺和描述能力受限的情况下,难以有效表示罕见或复杂物体。与此相反,视觉提示在通过具体视觉示例描绘新物体方面表现出色,但在传达物体的抽象概念方面不如文本提示有效。T-Rex2模型通过对比学习结合了文本和视觉提示的互补优势,将两者融合在单一模型中。该模型能够接受包括文本提示、视觉提示以及两者结合的多种格式输入,使其能够通过切换提示模式来适应不同场景。原创 2024-10-16 16:44:08 · 281 阅读 · 0 评论 -
使用StyleGAN3合成自定义数据(pytorch代码)
StyleGAN3 是基于前代 StyleGAN 和 StyleGAN2 的改进版本,旨在解决图像生成中的伪影问题,并提高生成图像的一致性和稳定性。Alias-free 卷积操作:减少图像中的伪影,使生成的图像质量更高,细节更清晰。网络架构优化:对生成器和判别器的网络架构进行优化,提高训练效率和生成图像的质量。逐层风格控制:继承前代模型的风格混合和逐层风格控制特性,允许在生成过程中对图像的不同部分进行精细控制。这些改进使得 StyleGAN3 非常适合用于图像合成,尤其是在训练数据有限的情况下。原创 2024-10-11 12:03:18 · 917 阅读 · 0 评论 -
Byte Pair Encoding(BPE)算法原理以及其python实现
Byte Pair Encoding(BPE)是一种基于统计的压缩算法,最初由Gage于1994年在“A New Algorithm for Data Compression”一文中提出。尽管其初衷是用于数据压缩,但随着自然语言处理(NLP)的发展,BPE被广泛应用于词汇表构建和分词任务中,尤其是在处理形态丰富的语言时表现尤为出色。BPE通过迭代地合并文本语料库中最频繁的相邻字符对,生成子词单元(subword units),从而以更紧凑和高效的方式表示原始文本。原创 2024-08-29 16:26:38 · 590 阅读 · 0 评论 -
深度学习论文: Sapiens: Foundation for Human Vision Models
Meta Reality Labs 隆重推出的Sapiens模型系列,是一套前沿的人工智能解决方案,专注于深化人类对视觉任务的理解与处理能力。这一系列模型精心打造,旨在高效应对四大核心视觉挑战:2D姿态估计、身体部位精准分割、深度信息的精确估计以及表面法线的准确预测。Sapiens的卓越之处在于其原生支持高达1K分辨率的高清推理能力,这一特性让模型在处理复杂细腻、细节丰富的图像时展现出非凡的性能,为用户带来前所未有的视觉体验。原创 2024-08-28 16:16:33 · 373 阅读 · 0 评论 -
深度学习论文: Evaluating SAM2’s Role in Camouflaged Object Detection: From SAM to SAM2
Meta AI推出的Segment Anything Model(SAM)作为通用目标分割模型,引领了图像分割技术的革新。随后,SAM2应运而生,这一统一模型不仅保留了SAM的图像分割能力,更将功能扩展至视频领域。SAM2在适用领域、分割准确度和运行速度上均有显著提升,但本报告指出,在自动模式下,SAM2识别图像中不同目标的能力相比SAM有所下降。这一发现基于伪装目标检测任务的评估,显示SAM2在特定任务上仍有优化空间。原创 2024-08-06 09:50:06 · 242 阅读 · 0 评论 -
深度学习论文: SAM 2: Segment Anything in Images and Videos
SAM 2架构的推出标志着SAM(Segmentation with A Million examples)技术从静态图像领域向动态视频领域的重大跨越。这一升级不仅保留了SAM在图像分割中的高效与准确性,还通过一系列创新设计,使得SAM 2能够灵活应对视频中的复杂场景与动态变化。在SAM 2中,用户可以通过点击、边界框或掩码等多样化的交互方式,在视频的任一给定帧中精确定义目标对象的范围。随后,一个轻量级的掩码解码器利用当前帧的图像特征与编码后的用户提示,迅速输出该帧的精细分割掩码。原创 2024-07-31 14:38:15 · 807 阅读 · 0 评论 -
Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)
Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)原创 2024-07-19 15:54:03 · 768 阅读 · 0 评论 -
Large Language Model系列之二:Transformers和预训练语言模型
Large Language Model系列之二:Transformers和预训练语言模型。原创 2024-07-16 09:22:33 · 1113 阅读 · 0 评论 -
Large Language Model系列之一:语言模型与表征学习(Language Models and Representation Learning)
语言模型与表征学习(Language Models and Representation Learning)原创 2024-07-16 08:50:33 · 1043 阅读 · 0 评论 -
深度学习论文: LLaMA: Open and Efficient Foundation Language Models
本文介绍了LLaMA,这是一系列基础而先进的语言模型,其参数规模横跨7亿至65亿不等,展现了强大的语言处理能力。研究表明,通过大规模公开数据的训练,LLaMA系列模型成功打破了对专有或受限数据集的依赖,达到了业界最前沿(SOTA)的性能水平。本研究的核心目标是通过显著增加训练中的token数量,开发出在不同推理场景下均能展现出卓越性能的语言模型。LLaMA模型家族以其多样的参数配置,为语言模型领域带来了新的竞争力量。原创 2024-07-10 11:27:18 · 2117 阅读 · 1 评论 -
深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。原创 2024-07-12 16:07:19 · 851 阅读 · 0 评论 -
CLIP 计算过程图解
CLIP模型是OpenAI开发的一种多模态学习模型,它通过学习文本和图像之间的关联,实现了跨模态的语义理解。原创 2024-06-26 08:41:21 · 624 阅读 · 0 评论 -
深度学习论文: DINOv2: Learning Robust Visual Features without Supervision
提出一种自监督学习方法DINOv2,可在不需要微调的情况下,生成适用于各种图像分布和任务的通用视觉特征,使用精心筛选的大量图像数据进行预训练,并利用自动流程构建数据集以提高稳定性并加速训练。原创 2024-06-05 15:04:55 · 1796 阅读 · 0 评论 -
深度学习论文: Emerging Properties in Self-Supervised Vision Transformers
本文探讨自监督学习是否为Vision Transformer(ViT)带来了相较于卷积网络的新特性。发现自监督ViT特征包含明确的图像语义分割信息,并展现出色的k-NN分类性能。同时,强调了动量编码器、多裁剪训练及小补丁在ViT中的重要性。基于这些发现,提出了DINO这一无标签自蒸馏方法,与ViT结合在ImageNet上实现了80.1%的top-1准确率。原创 2024-06-05 15:04:12 · 1248 阅读 · 0 评论 -
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
为弥补Sora不开源的缺陷,本文提出多代理框架Mora,整合先进视觉AI代理,复制Sora的全能视频生成能力。Mora能利用多视觉代理,成功模仿Sora在各种任务中的视频生成能力。原创 2024-03-22 16:03:16 · 1363 阅读 · 0 评论 -
SAM-Lightening: Lightweight Segment Anything Model with Dilated Flash Attention
通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention,SAM-Lightening在图像上完成推理平均每张仅需7ms,实现了比SAM-ViT-H快30.1倍的速度提升。原创 2024-03-18 11:41:56 · 1195 阅读 · 0 评论 -
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。原创 2024-03-14 14:08:37 · 873 阅读 · 0 评论 -
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
作者在对各种蒸馏策略进行深入剖析后,证实了task-agnostic的编码器蒸馏难以完全吸收SAM所掌握的全部知识。鉴于此,EdgeSAM巧妙地循环运用bbox与point提示词,并同步对提示词编码器和Mak解码器进行蒸馏,以确保蒸馏模型能够精准地掌握提示词与Mask之间错综复杂的关联。EdgeSAM是首个能在iPhone 14上以超过30 FPS运行的SAM变体。在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;原创 2024-03-13 16:25:16 · 740 阅读 · 0 评论 -
RepViT-SAM: Towards Real-Time Segmenting Anything
RepViT-SAM延续了MobileSAM的处理方式,引入RepViT-M2.3作为图像编码器提取图像特征,以及选用了SAM-ViT-H作为老师模型进行蒸馏。原创 2024-03-13 16:23:43 · 559 阅读 · 0 评论 -
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(EfficientSAM)
SAM 是一款具备显著实质意义的 Transformer 模型,它在庞大的 SA-1B 数据集上接受了深度训练,因此在零样本迁移与多功能性方面展现出了卓越的性能。尽管如此,由于其高昂的计算需求,SAM 的应用范围受到了一定的限制。SAMI 创新地采纳了 SAM 编码器 ViT-H 来生成特征嵌入,并通过训练轻量级编码器构建掩码图像模型。这一策略巧妙地绕过了传统的从图像补丁中重建特征的路径,转而直接从 SAM 的强大 ViT-H 中汲取特征。原创 2024-03-05 17:08:17 · 920 阅读 · 0 评论 -
Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V)
最近,大型多模态模型(LMM)迅猛发展。其中,OpenAI最近推出的GPT-4V (ision)表现最为出色,具有强大的多模态感知能力。它在场景理解、图片生成等多个任务中都取得了良好的表现。这为通用异常检测的研究提供了新的范式和机会。为了评估GPT-4V在通用异常检测中的性能,来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究。他们在涉及4个数据模态和9个异常检测任务的15个异常检测数据集上对GPT-4V进行了全面的测试。原创 2023-11-13 13:59:54 · 191 阅读 · 0 评论 -
Intel Devkit Call for Paper Challenge - Advanced Award
原创 2023-11-13 11:00:36 · 156 阅读 · 0 评论 -
基于深度学习的AI生成式人脸图像鉴别
AIGC(AI内容生成)技术的快速发展确实为创作者提供了高效生产力工具,但同时也引发了一些问题和挑战。这些技术可以生成以假乱真的图像、视频换脸等,给不法分子提供了滥用的机会。其中,一些不法分子可能利用AIGC技术制造虚假新闻、违反版权、绕过活体身份验证、散布谣言和诽谤他人、进行敲诈勒索等非法活动,以谋取不当利益。这些行为给社会造成了严重的负面影响,破坏了信息的真实性和可信度。因此,我们需要认识到AIGC技术的潜在风险,并采取相应的措施来应对。原创 2023-08-30 09:24:12 · 3967 阅读 · 11 评论 -
深度学习论文: Learning Transferable Visual Models From Natural Language Supervision
CLIP(对比性语言-图像预训练)是一个在各种(图像,文本)对上进行训练的神经网络。它可以通过自然语言指令,在给定图像的情况下预测最相关的文本片段,而不是直接为任务进行优化,类似于GPT-2和GPT-3的零样本能力。发现CLIP在ImageNet的“零样本”上与原始的ResNet50的性能相匹配,而且没有使用任何原始的128万个标记示例,克服了计算机视觉中的几个重要挑战。原创 2023-08-21 10:58:17 · 500 阅读 · 0 评论 -
Personalize Segment Anything Model with One Shot(PerSAM)
PerSAM作为一种无需训练的Segment Anything Model的个性化方法,仅使用一次性数据,即用户提供的图像和粗略的掩码来高效地定制SAM。具体而言,PerSAM首先利用SAM的图像编码器和给定的掩码来编码参考图像中目标对象的嵌入。然后,PerSAM计算目标对象与新测试图像上所有像素之间的特征相似性。在此基础上,PerSAM选择两个点作为正负对,将其编码为提示标记,并作为SAM的位置先验。在处理测试图像的SAM解码器中,我们引入三种技术,以充分发挥其个性化潜力,而无需参数调整。。原创 2023-07-17 11:33:55 · 530 阅读 · 0 评论 -
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
Faster SAM的目标是通过用轻量级图像编码器取代笨重的图像编码器,使得SAM适应移动设备。然而,按照原始SAM论文中的方式训练这样一个新的SAM会导致不令人满意的性能,尤其是在训练数据有限的情况下。我们发现,这主要是由于图像编码器和掩膜解码器的耦合优化所导致的。因此,为了解决这个问题,我们提出了一种名为解耦蒸馏的方法。具体而言,我们将原始SAM中的图像编码器ViT-H的知识蒸馏到一个轻量级图像编码器中,这个编码器可以自动与原始SAM中的掩膜解码器兼容。原创 2023-06-28 10:29:11 · 477 阅读 · 0 评论 -
Segment Anything Model(SAM)
SAM,即Segment Anything,它借助了NLP任务中的Prompt思路,通过给图像分割任务提供一下Prompt提示来完成任意目标的快速分割。提示可以是前景/背景点集、粗略的框或遮罩、任意形式的文本或者任何指示图像中需要进行分割的信息。该任务的输入是原始的图像和一些提示语,输出是图片中不同目标的掩码信息。原创 2023-06-25 08:34:56 · 8871 阅读 · 2 评论 -
Fast Segment Anything Model(FastSAM)
Segment Anything Model(SAM)在计算机视觉任务中很有用,但它的Transformer架构在高分辨率输入下计算成本很高,限制了它在工业场景中的应用。我们提出了一种速度更快的替代方法,性能与SAM相当。通过将任务重新定义为分段生成和提示,我们发现一个常规的CNN检测器加上实例分割分支可以完成任务。我们只使用SAM作者发布的SA-1B数据集的1/50来训练现有的实例分割方法。使用我们的方法,我们在50倍运行速度下实现了与SAM相当的性能。原创 2023-06-26 14:37:17 · 3416 阅读 · 1 评论