自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (13)
  • 收藏
  • 关注

原创 Matryoshka Query Transformer for Large Vision-Language Models

大视觉语言模型(LVLM)通常将图像编码为固定数量的视觉令牌,并使用语言模型处理这些令牌。尽管LVLM性能强劲,但在适应不同计算约束方面仍面临挑战。受到俄罗斯套娃表示学习(Matryoshka Representation Learning)启发,本文引入了俄罗斯套娃查询Transformer(Matryoshka Query Transformer),它能够在推理过程中将图像编码为m个视觉令牌,m可以是任意数字,最大为预定义的最大值。

2024-12-03 17:13:16 839

原创 VoCo-LLaMA: Towards Vision Compression with Large Language Models

视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA,这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏,本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。

2024-12-03 17:12:25 939

原创 Synergistic Patch Pruning for Vision Transformer: Unifying Intra- & Inter-Layer Patch Importance

ViT已经成为了适用于各种计算机视觉任务的强大架构。然而ViT比CNN计算成本要高很多。ViT中注意力机制,将来自不同图像补丁的信息融合到CLS令牌。为了克服这个问题,本文提出协同补丁剪枝(Synergistic Patch Pruning,STAR)统一跨层和层内补丁重要性分数。本文方法结合了1. 在线评估[CLS]层内重要性,2. 离线评估每个补丁层间重要性。通过最小化KL散度的加权平均来融合这两个重要性分数并通过仅保留前k个最重要的补丁,在每一层连续剪枝补丁。

2024-12-02 21:22:18 490

原创 Accelerating Transformers with Spectrum-Preserving Token Merging

提高Transformer架构吞吐量是一个重要问题,Transformer架构是很多最先进的视觉和语言任务模型中使用的基础组件。最近一个有效的策略是在Transformer模型中合并令牌表示,目标是减少计算和内存需求,同时保持精度。先前研究提出了基于二部图软匹配(BSM)的算法,即将令牌划分为不同集合并合并前k个相似的令牌。然而这类方法有明显的缺点,例如对令牌划分策略敏感并损害后面层中信息性令牌。该分数将类似令牌的大集群表示为高能量,表示潜在的合并候选者,而较小的集群视为低能量并保留。

2024-11-24 18:54:04 976

原创 InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pix

大视觉语言模型(LVLM)领域已经取得了重大进展,但由于分辨率有限,其发展受到理解细粒度视觉内容挑战的阻碍。最近的研究旨在增强LVLM的高分辨率理解能力,但它们上线仍然约为1500x1500像素,并且受限于相对较窄的分辨率范围。本文算法InternLM-XComposer-4KHD,是一种将LVLM分辨率能力提升到4K高清(3840x1600)以及更高的开创性探索。同时,考虑到超高分辨率可能并非在所有场景是必须的,它支持从336到4K标准的多种分辨率。

2024-11-24 13:12:47 806

原创 Matryoshka Multimodal Models

其中在粗级别的视觉令牌直接派生于细级别的视觉令牌。给定初始的24x24视觉令牌,按顺序使用2x2池化,步幅为2,从而产生12x12、6x6和3x3视觉令牌,并获得最浓缩的视觉令牌。通过这种方式,Matryoshka 视觉令牌可以逐渐保留原始令牌中的空间信息,同时形成从粗到细的嵌套表示。本文方法为LLM提供了几个独特的好处:1. 在推理过程可以显式控制每个测试用例的视觉粒度,例如根据内容预期复杂度或简单性调整用于表示图像的令牌数量,2.学习嵌套的视觉令牌集,这些令牌随着规模增加组件包含更多细节。

2024-11-24 13:11:43 885

原创 ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens

在有限的计算预算下,学习通用的视觉语言模型在计算上是令人望而却步的。本文深入研究了高效的视觉语言预训练,尽管它在降低计算成本和占用空间方面很重要,但这一领域受到的关注相对较少。为此本文提出了一种视觉令牌剪枝和融合算法ELIP,以根据语言输出的监督移除影响较小的令牌。本文通过使用多个序列块以逐渐剪枝方式实现该方法。

2024-11-20 14:39:20 797

原创 SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

在视觉-语言模型中,视觉令牌通常会消耗大量计算开销,尽管与文本令牌的信息密度相比它们的信息密度更稀疏。为了解决这个问题,大部分现有方法都学习了学习了一个网络来剪枝冗余的视觉令牌并需要额外的训练数据。本文提出一种高效的无训练令牌优化机制,成为SparseVLM,无需额外的参数或微调成本。具体地,鉴于视觉令牌在语言推理方面补充了VLM的文本令牌,本文选择视觉相关的文本令牌来评估VLM中评估的自注意力矩阵中视觉令牌的重要性。之后逐渐剪枝无关的令牌。

2024-11-20 14:38:06 551

原创 PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

在大视觉-语言模型上,图像携带大量信息。在LVLM模型上表示单一图像需要成百上千的令牌,这导致了巨大的计算成本,这随着图像分辨率吧平方级别增长,因此严重影响了训练与推断的效率。先前研究已经尝试了在早期层之前或之间减少图像令牌数量。然而这些方法不可避免地导致重要图像信息丢失,最终降低模型性能。本文的研究发现在。

2024-11-18 17:00:32 631

原创 Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning

令牌压缩通过减少冗余灵魄哎数量来加快ViT的训练和推理,如剪枝疏忽令牌或融合相似令牌。然而当应用到下游任务时,这些方法在压缩程度在训练和推断阶段不匹配时遇到了显著的性能下降。本文提出了一种模型算法框架,用于解耦两个阶段之间压缩程度。本文另外提出了一种快速参数高校自蒸馏阶段,以获得一个名为令牌补偿器(Token Compensator)的小插件。在推断时,ToCom能被直接插入任何具有任何不匹配的训练和推断压缩的下游线程模型中,以获得普遍的性能提升,而不需要进一步训练。

2024-11-18 16:59:10 1107

原创 EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization

本文给出一种简单且高效的方法以内存高效方式改善持续测试时适应(TTA)算法。TTA任务可能需要在有限内存的边缘设备上执行,因此减少内存是至关重要的且已经被先前TTA研究忽略。另外长期的适应常常会导致灾难性遗忘和错误累计。本文从两个角度解决这个问题:1. 使用轻量化元网络,将冻结的原始网络适应到目标域。新的架构通过减少需要后向传播的中间激活尺寸最小化内存消耗。2. 自蒸馏正则项控制元网络的输出与冻结原始网络输出不会显著偏差,以实现保留原始预训练知识。

2024-11-14 19:51:59 675

原创 An Image is Worth 1/2 Tokens After Layer 2

论文标题:An Image is Worth 1/2 Tokens After Layer 2:本文中研究大视觉语言模型(Large Vision-Language Model,LVLM)的低效注意力现象。本文发现在视觉令牌的注意力计算在流行LVLM模型的深层上是极端低效的,这提出与文本数据处理更稀疏方法的需要。本文引入了一种即插即用的方法,通过在浅层学习自适应的注意力范式并在后续层中剪枝视觉令牌。

2024-11-14 19:51:00 732

原创 LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

尽管大语言模型(LLM)中文本嵌入的压缩表示取得了重大进展,但大型多模态模型(LMM)中视觉令牌的压缩仍然是一个很大程度上被忽视的领域。本文中提出了关于视觉令牌冗余分析和这些模型有小训练的研究。

2024-11-10 17:10:28 1057

原创 Rethinking Token Reduction for State Space Models

为了促进Mamba更广泛的应用,探索其效率至关重要。虽然令牌缩减技术提供了一种简单的训练后策略,但本文发现使用现有的方法直接用于SSM会导致性能的大幅下降。本文提出了一种针对SSM的量身定制的统一训练后令牌缩减方法。本文方法整合了令牌重要性和相似性,从而利用剪枝和融合的优势,设计了一种细粒度的层内令牌剪枝策略。

2024-11-09 12:42:09 846

原创 Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models

现有很多研究关注于在视觉语言模型通过仅仅调整一小部分参数使用有效参数迁移算法。然而过多的计算负担阻碍了VLP的实际应用。本文关注于参数和计算高效的迁移学习(Parameter and computation efficient learning,PCETL)算法。PCETL不仅限制VLP模型中可训练参数数量,而且在推断时减少计算冗余。因此可以获得更高效的迁移。

2024-11-09 12:41:50 937

原创 TokenPacker: Efficient Visual Projector for Multimodal LLM

视觉投影器作为多模态LLM(MLLM)中视觉编码器与大语言模型(LLM)之间必要的桥梁。一般地,MLLM采用简单的MLP层通过一对一变换保留所有视觉上下文。然而这些视觉令牌是冗余的并在处理高分辨率图像时显著增加。先前研究引入了重采样器或提取器以减少产生的视觉令牌数量,但它们不能捕捉更细节的特征并削弱MLLM的视觉推理能力。

2024-11-07 13:54:17 988

原创 MECTA: Memory-Economic Continual Test-time Adaptation

定义PxP(x)Px是从分布集合P\mathbb{P}P采样的数据分布,P0P_{0}P0​是训练分布。假定分布P∼PP∼P与P0P_{0}P0​相同或偏离较多。神经网络模型fθf_{\theta}fθ​在训练集上以θ0min⁡θ∈ΘEx∼P0xℓfθxcxθ0​minθ∈Θ​Ex∼P0​x​ℓfθ​xcx))]方式预训练。损失的一个例子是交叉熵损失。θtOpt。

2024-11-07 13:53:19 821

原创 Dense Connector for MLLMs

本文算法使用主流的LLaVa框架为例,它包括预训练视觉编码器Vis⋅Vis(\cdot)Vis⋅和大语言模型LLM⋅LLM(\cdot)LLM⋅和 本文提出的密集连接器DC⋅DC(\cdot)DC⋅。本文的DC可以无缝扩展到其他高分辨率或双分支MLLM。视觉编码器使用CLIP预训练的ViT作为视觉编码器提取视觉特征。ViT首先划分图像XiX_{i}Xi​为无重叠的补丁。每个补丁之后使用卷积处理生成视觉令牌,作为之后ViT的输入。该过程产生L层的视觉特征V。

2024-11-04 17:12:12 1225

原创 Agglomerative Token Clustering

本文给出一种新的令牌融合方法,该方法可以在图像识别,图像合成,目标检测分割等任务上超过先前的令牌融合和剪枝算法。

2024-11-04 17:11:56 970

原创 Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers

对于高效的ViT架构,近期研究通过对剪枝或融合多余的令牌减少自注意力层的二次计算成本。然而这些研究遇到了由于信息损失而导致的速度-精度平衡问题。本文认为令牌之间的不同关系以最大限度的减少信息损失。本文中提出了一种多标准令牌融合(Multi-criteria Token Fusion),该融合基于多种标准(相似性、信息性和融合令牌尺寸)。

2024-11-03 11:25:59 894

原创 LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

为了实现LMM模型在多种长宽比和高分辨率的图像感知,存在两个主要挑战:1. 适应性:由于视觉编码器是在固定分辨率上预训练的,需要编码器处理大范围长宽比和分辨率的图像是困难的。简单的图像插值如果偏离预训练场景很远可能会导致分布不均匀问题。2. 效率:直接使用ViT编码高分辨率图像需要对于图像尺寸二次的计算复杂度。另外,LLM处理高分辨率图像中大量视觉令牌可能计算成本更高。

2024-11-03 11:25:32 825

原创 Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

近期在多模态大语言模型(MLLM)上的研究通常使用大量图像令牌以弥补MLLM在视觉上的弱点,这不仅表现出明显的冗余还大大增加了已经很高的计算量。令牌剪枝是一种有效的方法加速MLLM,但何时和如何丢弃令牌仍然是一个挑战。本文关注的问题:能寻找一个可以直接决定MLLM最优剪枝策略的解决方法吗为了实现这个目标,本文提出了一种有效且无训练的剪枝方法,成为Fit and Prune (FitPrune)。本文将令牌剪枝定义为分布拟合任务采用统计原则获得最优剪枝配方。

2024-10-30 17:06:46 731

原创 Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

对于模型中冗余的参数,一个常见的方法是通过结构化剪枝方法减少参数容量。例如,基于幅度值和基于梯度的剪枝方法。

2024-10-30 17:06:21 622

原创 Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs

大语言模型(LLM)在设备上部署道路上落下了一个令人生畏的障碍。本文关注于大语言模型的剪枝算法。动态稀疏训练(Dynamic Sparse Training,DST)是一种近期收到广泛关注的剪枝算法。与之前大部分剪枝方法需要训练整个网络不同,DST选择性更新一部分网络参数并允许稀疏网络拓扑动态进化。然而先前研究显示其在小规模BERT级别语言模型上微调的失败。

2024-10-28 13:37:41 578

原创 Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

本文提出使用其他模态的无关数据改进特定模态的Transformer,例如使用音频或点云数据来改进ImageNet模型。本文强调的是目标模态的数据样本与其他模态无关,这将本文方法与其他使用不同模态配对(CLIP)或交织数据的研究区分开来。本文提出了一种称为多模态路径(Multimodal Pathway)的方法–给定一个目标模态和为其设计的Transformer,本文使用另一个模态数据训练的辅助Transformer,并构建连接两个模型的组件路径,以便为两个模型都能处理目标模态数据。

2024-05-07 11:02:59 840 1

原创 Scale-Aware Modulation Meet Transformer

本文给出一种集合卷积网络和Transformer的架构。提出的尺度感知调制(Scale-Aware Modulation,SAM)包括两个核心新颖模块,捕捉多尺度特征并扩大感受野的多头混合卷积(Multi-head Mixed Convolution,MHMC)模块与允许信息在不同头之间混合的尺度感知聚合模块(Scale-Aware Aggregation,SAA)。

2024-05-03 20:48:08 866

原创 Shunted Self-Attention via Multi-Scale Token Aggregation

近期提出的ViT模型在各种计算机视觉任务上展现了令人鼓舞的结果,这要归功于能够通过自注意力对补丁或令牌的长期依赖性进行建模。然而这些方法通常指定每个令牌相似感受野。这种约束不可避免地限制了每个自注意力层在捕捉多尺度特征的能力。本文提出一种新的注意力,称为分流自注意力(Shunted Self-attention,SAA),允许ViT在每个注意力层的混合尺度上对注意力进行建模。

2024-05-03 19:27:15 581

原创 Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models

先前大量在CLIP模型上的有效微调方法只考虑了通过添加额外模块学习特定任务知识,没有探索冻结的CLIP参数,本文采用掩码调整(Mask Tuning)探索视觉语言模型VLM的良好学习知识结构,并揭示其中针对特定任务领域的隐藏知识。神经生理学领域,已经发现大脑皮层中神经元对各种视觉特征表现出不同知识。这些知识分布在不同神经元中,这些神经元具有特定功能并相互协同工作,成为神经通路(neural pathway)。当有新环境知识到来,神经元将会与过去学到的旧知识进行比较。

2024-04-14 16:26:02 1099

原创 Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning

深度神经网络通常高度参数化,并且可以在不牺牲模型性能的情况下对其大多数参数进行剪枝。彩票假说表明在初始化时存在一个稀疏自网络,可以对其进行训练,以实现与原始密集网络相同性能水平。这种匹配子网络可以通过带倒带的迭代幅度剪枝(IMP)得到,它包含以下三个步骤:1. 一定次数的迭代训练网络,2. 剪枝具有最小幅度的权重,3. 将权重倒回早期迭代,同时将剪枝后权重固定为0。该过程重复几轮,最终自网络可以实现整个网络性能的匹配彩票。尽管IMP简单,但它在寻找稀疏掩码方面提供了SOTA性能,尤其是在极端稀疏的情况下。

2024-04-08 22:10:00 1021

原创 Supervised Fine-tuning in turn Improves Visual Foundation Models

从NLP中的监督微调(Supervised Fine-tuning)获得的灵感,本文探索了细粒度SFT在预训练后增强视觉基础模型潜力。本文提出了一种二阶段方法ViSFT释放视觉基础模型细粒度知识。具体地,通过一些域内任务执行视觉联合学习增强视觉基础模型,然后在域外基准任务上进行测试。

2024-04-04 13:12:52 572

原创 FasterViT: Fast Vision Transformers with Hierarchical Attention

本文引入了层次注意力(Hierarchical Attention)的Carrier Token(CT),该令牌以低成本获得比局部窗口更大的注意力足迹。

2024-03-21 17:48:31 998

原创 Disentangled Transfer Learning for Visual Recognition

大规模预训练加微调的框架已经在各个领域推广。但是由于GPU内存或时间预算的原因,传统的微调可能是难以解决的,因为必须更新整个大模型参数。最近,参数有效迁移学习(PETL)被提出仅更新可训练参数的极小子集。由于其效率和防止过度拟合的能力,PETL的许多变体相继出现。然而可训练参数的大幅减少并不一定意味着GPU内存使用量同等减少:节省的GPU内存百分比仍然很小(约为25%)。如果由于GPU内存不足而无法对大模型进行微调,即使是PETL框架也可能失败。这个缺点是至关重要的,也是根本性质。

2024-02-22 11:41:42 1020

原创 Boosted Dynamic Neural Networks

尽管深度学习模型在各种计算机视觉任务上取得成功,但在实际应用中部署模型时,必须考虑计算资源的限制和推理效率。作为深度学习应用一个关键话题,高效深度学习最近得到了广泛的研究,包括高效架构设计,网络剪枝和网络量化。与对应的大baseline模型相比,这些轻量化模型通常表现出显著的推理加速,且性能下降很小或可以忽略不计。动态神经网络是高效深度学习模型另一个分支。实际上轻量级模型运行速度更快,性能较低,而大模型运行速度较慢,性能较高。

2024-02-22 11:40:47 983

原创 Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective

为了建立经济且轻量化的网络替代方案,模型压缩是一种工具,越来越受到欢迎。在压缩的大量研究中,模型剪枝是主要方法之一,目标是在不影响模型性能的情况下剪枝最不显著的权重。它通常在训练的收敛之后、训练过程中甚至在训练开始之前应用。由此产生的稀疏性范围从单个权重等细粒度元素到神经元、块和注意力头等粗粒度结构。大多数传统剪枝算法以模型为中心方式产生稀疏神经网络–分析架构拓扑,并通过学习参数化权重掩码或基于训练动态、架构属性计算代理启发式等捕获关键子集。

2024-02-08 16:01:08 1019

原创 Merging of neural networks

典型的神经网络训练从随机初始化开始,并进行训练,直到在某些局部最优中达到收敛。最终结果对开始的随机种子非常敏感。因此,人们可能要多次进行实验以避免碰到不幸种子。最终选择的网络正是具有最佳验证精度的实验。本文认为启动种子之间的差异可能通过在每次初始化中在隐藏层中选择稍微不同的特征来解释。人们可能会有一个问题,能以某种方式为网络训练选择更好的特征?一种方法是训练更大网络然后通过通道剪枝选择最重要通道。

2024-02-08 15:58:51 897

原创 Dynamic Sparse Training with Structured Sparsity

动态稀疏训练(Dynamic Sparse Training,DST)如RigL是SOTA稀疏训练方法,学习满足参数比密集网络少85%-95%权重的非结构化稀疏神经网络(SNN),同时维持相近的泛化性能。稀疏学习方法在训练和推断时都利用稀疏度,不像剪枝算法Learning n:m fine-grained structured sparse neural networks from scratch只在推断时利用稀疏度。

2024-01-29 18:09:21 1110

原创 Initializing Models with Larger Ones

神经网络权重初始化对其优化至关重要。适当初始化有助于模型收敛,并防止梯度消失问题。两个著名的初始化技术,Xavier初始化和Kaiming初始化,在神经网络训练中发挥了重要作用。它们仍然是PyTorch等现代深度学习库中默认方法。这些方法都是为从随机初始化开始训练神经网络而开发的。在当时,这是普遍的做法。然而形式已经发生了变化。由于社区的集体努力,各种预训练的模型现在很容易获得。这些模型在大型数据集上进行训练(如ImageNet-21K和LAION-5B),并经常由专家优化。

2024-01-29 18:08:17 1270

原创 Sparse Model Soups稀疏模型汤

一些研究表明,通过利用多个模型,而不是保留验证数据集上选择最优的模型并丢弃其余模型,可以显著提高预测其性能。这种集成将单独训练的模型通过平均化输出预测组合在一起。集成预测已经被证明可以提高预测性能,并对预测不确定指标产生积极影响如校准、OOD以及模型公平性。集成学习一个显著缺点是,所有模型必须在部署过程中进行评估,因此推理成本增加了m倍,这个问题已经通过利用稀疏化、更高效的模型集合解决。一些研究提出将参数平均化以构建用于推理的单个模型。

2024-01-24 09:51:33 1055

原创 RMNet: Equivalently Removing Residual Connection from Networks

自从AlexNet问世以来,SOTA的CNN架构变得越来越深。例如,AlexNet只有5个卷积层,很快被VGG和GoogleNet分别扩展到19和22层。然而由于梯度消失和爆炸问题,简单地堆叠层的深度网络很难训练–当梯度反向传播到更早的层时,重复乘法可能会使梯度无限小或无限大。标准化初始化在很大程度上解决了这个问题。中间标准化层使具有数十层的网络能够聚合。同时另一个退化问题也暴露出来:随着网络深度增加,精度饱和,然后迅速退化。ResNet解决了退化问题,并通过添加从块输入到输出的残差连接来实现1K+层模型。

2024-01-24 09:50:45 956

原创 Sparse Iso-FLOP Transformations for Maximizing Training Efficiency

模型尺寸和训练数据的增加导致了很多深度学习的突破(AlexNet、ResNet、Transformer、GPT、AlphaGo等)。因此训练和部署深度神经网络的计算和内存占用呈指数级增长。为了能够部署大模型,已经引入了多种技术(例如蒸馏、量化、剪枝)来减少推理FLOPs。虽然这些技术提高了推理效率(测试精度与推理FLOPs)但相关训练成本仍然过高。本文中关注于提高DNN训练效率(测试精度与训练FLOPs)。近期的研究已经探索了使用权重稀疏性减少训练中花费的FLOPs。

2024-01-17 09:36:27 1054

cioudioutest.py

基于numpy实现的2018,2019年DIOU(Distance IOU),GIOU(Generalized Intersection over Union)论文核心损失函数及常用IOU计算实现

2020-03-15

yolact 评估可视化python代码

实例分割yolact评估可视化以及去除边缘噪声点代码实现

2019-09-26

tracker.py

python代码实现的基于opencv库的常用目标追踪算法,包括TLD,MIL,KCF,MedianFlow,BOOSTING

2019-09-01

voc格式转coco格式并增强python代码

voc格式转coco格式并使用albumentations增强python代码

2019-08-16

判断点是否在多边形区域算法python程序

判断点是否在多边形区域算法python程序

2019-08-16

基于unet3d的CT脾分割

该工程使用unet3d和vnet算法实现grand challenge上脾分割

2019-04-23

基于resnet+unet的皮肤病变分割

该工程使用resnet50/101+hypercolumn+scse+unet算法实现对皮肤病变的分割

2019-02-25

基于EAST算法的书法文字检测

该项目使用基于keras实现的EAST算法完成对书法文字的检测需求

2019-02-23

基于deeplabv3+的遥感农作物语义分割

使用deeplabv3+实现遥感图片的农作物区域分割,包括水稻,小麦,玉米

2019-02-17

基于语义分割的内镜分割

该文档中包含deeplabv3+,pspnet的语义分割代码,解决grand challenges上内镜检测问题

2019-01-22

基于segnet的语义分割

基于segnet模型的对cityscapes数据集的语义分割代码实现

2019-01-13

基于neo4j的简易医疗问答知识图谱

基于neo4j的简易医疗问答知识图谱,数据从ask120中爬取得到

2019-01-13

基于迁移学习的鲸鱼识别

使用keras实现的基于siamese和tripletnet的鲸鱼识别。

2019-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除