
Deep Learning
文章平均质量分 80
mingo_敏
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习论文: SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
SHViT:基于内存高效设计的单头视觉Transformer 本文提出SHViT,一种创新的视觉Transformer架构,通过宏观和微观双重优化实现高效部署。宏观上采用16×16跨步分块和3阶段设计,将特征图压缩16倍,显著降低内存访问开销,在GPU/CPU上实现3.0×/2.8×加速。微观层面发现多头注意力存在78%相似度冗余,提出单头注意力模块(SHSA),仅对1/4.67通道计算,结合卷积与注意力优势。实验表明,SHViT-S4在ImageNet-1k上比MobileViTv2快3.3×(GPU)/原创 2025-06-27 13:46:06 · 66 阅读 · 0 评论 -
caffe各层解析以及参数说明(慢慢整理,做个笔记)
Convolution层layer { name: "conv1" type: &a原创 2018-11-27 20:16:55 · 3128 阅读 · 0 评论 -
caffe训练 Check failed: error == cudaSuccess错误汇总
本文地址:https://blog.youkuaiyun.com/shanglianlm/article/details/819391791 CUBLAS_STATUS_SUCCESS (1 vs. 0) CUBLAS_STATUS_NOT_INITIALIZEDCheck failed: status == CUBLAS_STATUS_SUCCESS (1 vs. 0) CUBLAS_STATUS_N...原创 2018-08-22 10:18:39 · 7980 阅读 · 6 评论 -
windows环境下编译caffe遇到的问题以及处理方法
本文地址:https://blog.youkuaiyun.com/shanglianlm/article/details/80144225 1 微软caffe下载地址: https://github.com/Microsoft/caffe 1-1 error MSB4062: 未能从程序集error MSB4062: 未能从程序集 E:\NugetPackages\OpenCV.2.4.1...原创 2018-04-29 17:37:33 · 5471 阅读 · 3 评论 -
caffe solver.prototxt参数说明
本文地址:caffe 下与loss相关的一些说明:1 train loss 不断下降,test loss 不断下降,说明网络正在学习2 train loss 不断下降,test loss 趋于不变,说明网络过拟合3 train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或者批处理大小4 train loss 趋于不变,test loss 不断下降...原创 2018-11-28 14:07:49 · 622 阅读 · 0 评论 -
caffe打包和部署
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\includeH:\caffe\caffe-ssd-microsoft\caffe-ssd-microsoft\includeH:\caffe\caffe-ssd-microsoft\NugetPackages\boost.1.59.0.0\lib\native\include H...原创 2018-08-17 14:21:47 · 1557 阅读 · 0 评论 -
DeepStream从入门到放弃之一:GStreamer Plugin
DeepStream从入门到放弃之一:GStreamer Plugin之nvvideo4linux2DeepStream从入门到放弃之一:GStreamer Plugin之nvvideo4linux2DeepStream从入门到放弃之一:GStreamer Plugin之nvvideo4linux2DeepStream从入门到放弃之一:GStreamer Plugin之nvvideo4linux2DeepStream从入门到放弃之一:GStreamer Plugin之nvvideo4linux2原创 2021-02-22 22:48:54 · 774 阅读 · 0 评论 -
Tensorflow Object Detection API(一)
1 ImportError: No module named 'object_detection'Traceback (most recent call last): File "object_detection/builders/model_builder_test.py", line 21, in <module> from object_detection...原创 2018-06-15 09:04:49 · 1130 阅读 · 0 评论 -
Tensorflow+python3 常见运行问题及其解决方法
本文地址: 1 SyntaxError: Missing parentheses in call to ‘print’ 解决:python2支持 print “xxxx” ,python3需要使用print(“xxx”) 2 SyntaxError: multiple statements found while compiling a single statement 解决:多行代码直接...原创 2018-02-27 16:56:36 · 6784 阅读 · 0 评论 -
Tensorflow函数以及参数说明
本文地址:1 tf.nn.conv2dtf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 第一个参数input:指需要做卷积的输入图像,它要求是一个Tensor,具有[batch, in_height, in_width, in_channels]这样的shape,具体含义是[训练时原创 2018-04-25 09:26:18 · 1415 阅读 · 0 评论 -
TensorFlow-Slim 图片分类(二)
TensorFlow-Slim图片分类 TensorFlow-Slim image classification1 将图片数据转换成TF-Record格式文件 Converting Images to TFRecord formatpython download_and_convert_data.py \ --dataset_name=flowers \ --dataset_dir=H...原创 2018-06-19 17:19:17 · 975 阅读 · 0 评论 -
TensorFlow-object detection 目标检测(三)
本文地址:1 将图片数据转换成TF-Record格式文件 Pet数据 Generating the Oxford-IIIT Pet TFRecord files.python dataset_tools/create_pet_tf_record.py \ --label_map_path=object_detection/data/pet_label_map.pbtxt \ --dat...原创 2018-06-26 11:32:36 · 728 阅读 · 0 评论 -
The PyTorch-Kaldi Speech Recognition Toolkit
The PyTorch-Kaldi Speech Recognition ToolkitPDF: https://arxiv.org/pdf/1811.07453.pdf代码: https://github.com/mravanelli/pytorch-kaldi文档: http://fancyerii.github.io/books/pytorch-kaldi/1 概述Kaldi目前是最受欢迎的ASR工具包。使用C++和各种脚本来实现最先进的语音识别系统, Kaldi包括一全套使用方法,涵盖了所原创 2021-12-15 09:24:37 · 4532 阅读 · 0 评论 -
无人机航拍视频帧处理与图像拼接算法
无人机航拍视频帧处理与图像拼接算法。原创 2024-10-08 13:41:26 · 1101 阅读 · 0 评论 -
深度学习论文: Open-World Object Counting in Videos
本文提出视频开放世界物体计数新任务,旨在通过文本或视觉提示自动统计视频中特定目标物体的唯一实例数量。作者开发了COUNTVID模型,融合计数检测与分割跟踪技术,通过三阶段处理实现跨帧物体计数。同时构建了VIDEOCOUNT数据集,包含370个多样化视频样本。实验表明,COUNTVID在准确率上显著优于基线方法。该研究为视频物体计数提供了新基准,相关代码与数据已开源。原创 2025-06-26 10:36:51 · 98 阅读 · 0 评论 -
深度学习论文: LSNet: See Large, Focus Small
视觉网络(CNN 和 ViT)推动了计算机视觉发展,但其高计算量限制了实际部署,尤其是实时场景。现有轻量级模型依赖自注意力和卷积进行特征融合,导致感知与聚合过程中效率和效果受限,难以在有限算力下平衡性能。受人类视觉动态异尺度能力启发,本文提出 “观大势、聚细节” 策略,设计 LS(大 - 小)卷积:通过大核感知捕获全局信息,小核聚合实现局部特征自适应融合,兼顾效率与表征能力。异尺度上下文融合:大核(如 7×7)负责扩展感受野,捕获全局语义关联;原创 2025-06-24 10:17:19 · 130 阅读 · 0 评论 -
深度学习论文: YOLOMG: Vision-based Drone-to-Drone Detection with Appearance and Pixel-Level Motion Fusion
针对复杂环境下微型无人机检测难题,本文提出端到端框架YOLO-MG,通过运动引导实现精准检测。原创 2025-05-13 15:49:45 · 143 阅读 · 0 评论 -
深度学习论文: Describe Anything: Detailed Localized Image and Video Captioning
与传统图像描述相比,详细本地化字幕(DLC,Detailed Localized Captioning)有着显著差异。传统图像描述往往只是对整个场景进行粗略概括,而 DLC 则致力于深度挖掘用户指定区域的细微之处。其核心目标不仅在于识别对象的名称或类别,更着重于捕捉诸如纹理、色彩图案、形状、特性以及各类独特视觉特征等微妙属性。可描述一切模型(DAM)在生成图像和视频中物体的详细描述方面表现卓越。原创 2025-04-30 15:46:20 · 301 阅读 · 0 评论 -
openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的网络结构体对比
维度Ovis2核心定位端侧多模态大模型(8B参数)全场景多模态大模型(34B参数)技术亮点低秩特征压缩、动态视觉tokenizer概率化视觉token、跨模态交叉注意力适用场景移动端实时交互(如智能客服、内容审核)复杂推理任务(如教育、科研)性能指标OpenCompass平均分65.2(8B模型)OpenCompass平均分72.1(34B模型)生态支持支持Hugging Face、OpenVINO支持Hugging Face、DeepSpeed。原创 2025-04-18 15:34:08 · 617 阅读 · 0 评论 -
深度学习论文: Ovis: Structural Embedding Alignment for Multimodal Large Language Model
在当下的多模态大语言模型(MLLM)领域,常见的做法是借助诸如多层感知机(MLP)之类的连接组件,将预训练的大语言模型(LLM)与另一个预训练的视觉 Transformer 进行整合,以此赋予大语言模型视觉处理能力。然而,在多模态大语言模型中,两种嵌入策略存在着显著的不协调问题:其一是基于嵌入查询表的结构化文本嵌入方式,其二是由视觉编码器直接生成的连续嵌入方式。这种策略上的差异,给视觉信息与文本信息的深度融合带来了诸多挑战,难以实现无缝衔接。有鉴于此,本文创新性地提出了 Ovis 这一架构。原创 2025-04-17 10:55:43 · 98 阅读 · 0 评论 -
深度学习论文: Autoregressive Pre-training of Large Vision Encoders
跨模态生成架构设计层级化视觉-文本编码器-解码器结构,采用因果掩码机制实现图像块与文本令牌的双向信息流动。视觉编码器结合动态前缀注意力,文本解码器融合SwiGLU激活与RMSNorm归一化,提升跨模态特征交互效率。统一目标函数提出多模态序列生成目标函数,通过像素级MSE(图像)和交叉熵(文本)损失联合优化,α超参数平衡模态监督。突破传统对比学习局限,直接通过生成任务增强跨模态语义一致性。高效训练策略采用混合精度训练与动态序列打包技术,在120亿图文对上实现高效训练。原创 2025-04-02 14:53:03 · 224 阅读 · 0 评论 -
深度学习论文: OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
自上而下的注意力在人类视觉系统中至关重要,大脑先概览场景找线索,再细察详情。但现代卷积神经网络(ConvNets)采用金字塔结构扩大感受野,忽略了这一仿生原理。本文提出了 OverLoCK,这是首个明确融入自上而下注意力机制的纯卷积神经网络骨干架构。与金字塔骨干网络不同,本文的设计采用了一种分支架构,包含三个协同工作的子网络:1)基础网络(Base - Net),用于编码低 / 中层特征;原创 2025-04-02 10:39:26 · 562 阅读 · 0 评论 -
深度学习论文: Transformers without Normalization
归一化层在现代神经网络中广泛应用且长期被视为不可或缺的组件。本研究突破性地证明,通过一种极为简洁的技术,无需归一化层的 Transformer 模型即可达到甚至超越传统架构的性能。本文提出动态双曲正切模块 DyT(Dynamic Tanh),其逐元素操作定义为 DyT (x) = tanh (αx),可直接替代 Transformer 中的归一化层。这一设计源于对 Transformer 中 LayerNorm 层普遍呈现类 tanh 型 S 曲线输入输出映射的观察。原创 2025-03-25 16:57:10 · 731 阅读 · 0 评论 -
深度学习论文: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
在 OCR 技术领域,传统方法与基于大型视觉语言模型(LVLM)的方案难以满足人们对光学字符处理日益多元的需求。为突破这一困境,我们创新提出通用 OCR 理论 ——OCR - 2.0,旨在构建新型 OCR 模型,推动该技术迈向新高度。端到端架构:摒弃传统 OCR - 1.0 模型复杂的多模块流水线,采用统一架构,简化流程,降低维护成本,让初学者也能轻松掌握,极大提升系统易用性与扩展性。原创 2025-03-24 16:24:01 · 244 阅读 · 0 评论 -
深入理解 Re-parameterizable RegionText Alignment (RepRTA) 技术
Re - parameterizable RegionText Alignment(RepRTA)技术通过创新的重新参数化方法,为文本与图像区域对齐问题提供了一种高效、准确的解决方案。它在模型架构设计上的突破,带来了性能的显著提升,在多个实际应用场景中展现出巨大的潜力。展望未来,随着计算机视觉和自然语言处理技术的不断发展,RepRTA有望在更广泛的领域得到应用和拓展。例如,结合新兴的多模态预训练模型,进一步提升其在复杂场景下的性能;原创 2025-03-20 16:17:10 · 766 阅读 · 0 评论 -
Hugging Face 模型格式全解析:从 PyTorch 到 GGUF
Hugging Face 生态支持多种模型格式,以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络:Hugging Face 模型格式的演进体现了安全性、效率和兼容性的平衡:根据需求选择格式:追求安全用 ,本地部署用 ,深度集成 PyTorch 则保留 。原创 2025-03-20 10:02:32 · 1582 阅读 · 0 评论 -
YOLOE:Real-Time Seeing Anything 让 AI 像人类眼睛一样 “看见一切”!
比如训练时教它认“汽车”和“行人”,遇到没见过的“无人机”或“外星生物”就彻底懵圈。传统YOLO就像戴着一副“预设眼镜”,只能看到预先定义的物体。而。原创 2025-03-14 10:01:57 · 507 阅读 · 0 评论 -
低光图像增强新突破!HVI 色彩空间 + CIDNet 网络如何攻克红黑噪声难题?
低光照图像增强(LLIE)作为计算机视觉领域的核心任务,旨在从退化的暗光图像中恢复清晰细节。传统基于标准 RGB(sRGB)空间的增强方法,由于对颜色变化过于敏感,常导致图像出现明显的色彩偏移和亮度失真。尽管转换到 HSV(色调 / 饱和度 / 明度)空间能部分改善亮度问题,但却引发了更为棘手的红色区域断层和暗部噪声放大问题。针对这一挑战,本文创新性地提出了专为低光增强设计的 HVI(水平 - 垂直 - 强度)色彩空间。极化 HS 平面。原创 2025-03-13 17:04:06 · 318 阅读 · 0 评论 -
深度学习论文: YOLOv12: Attention-Centric Real-Time Object Detectors
在目标检测领域,YOLO 系列算法凭借在延迟与准确率间的出色平衡占据主导地位。尽管其改进涉及多个方面,但网络架构设计始终是研究的关键方向。近年来,以注意力为核心的视觉 Transformer(ViT)架构展现出强大建模能力,然而多数架构设计仍聚焦于卷积神经网络(CNN)。这是因为注意力机制存在效率问题,包括二次计算复杂性和低效的内存访问操作,这极大限制了其在对推理速度要求高的 YOLO 系统中的应用。原创 2025-02-20 10:57:44 · 295 阅读 · 0 评论 -
深度学习论文: RailYolact -- A Yolact Focused on edge for Real-Time Rail Segmentation
为了解决模型预测的铁轨掩码边缘粗糙的问题,本文将边缘算子提取的边缘信息融入原始 Yolact 的损失函数中,以强调模型对铁轨边缘的关注。此外,本文应用盒式滤波器对线性插值导致的真实标签掩码边缘锯齿进行平滑处理。由于边缘信息的融入和平滑处理过程仅在训练阶段进行,因此模型的推理速度并未受到影响。本文在自定义铁轨数据集上的实验结果显示,预测准确率有所提高。原创 2025-02-17 13:18:01 · 386 阅读 · 0 评论 -
深度学习论文: Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
在计算机视觉领域,实现跨任意视场角相机的零样本深度泛化工作颇具挑战性,具体体现在以下几个方面:其一,需选取统一的相机模型来精准表示不同的视场角;其二,要有效利用透视训练数据集,使其能够泛化到仅在大视场角相机中可见的数据空间;其三,要应对因不同视场角导致的统一空间中训练图像大小显著差异的问题;其四,需处理训练和测试阶段之间存在的分辨率不一致问题。针对上述挑战,本文提出了深度任意相机(DAC)这一创新性的零样本度量深度估计框架。原创 2025-02-14 16:45:43 · 144 阅读 · 0 评论 -
RandAugment、AugMix和AutoAugment三者对比
方法策略生成方式计算成本迁移能力适用场景强化学习搜索极高弱高精度需求、资源充足随机选择+参数控制低强快速训练、通用场景AugMix多增强链混合+一致性损失中等较强鲁棒性要求高、对抗噪声场景通过结合不同方法的优势,实际应用中可根据任务需求灵活选择或组合(如RandAugment与AugMix混合使用)。原创 2025-02-12 16:26:50 · 838 阅读 · 0 评论 -
深度学习中的并行策略概述:4 Tensor Parallelism
首先定义了一个简单的模型 SimpleModel,它包含两个全连接层。然后,本文使用 torch.distributed.device_mesh 初始化了一个设备网格,这代表了本文想要使用的 GPU。接着,本文定义了一个 parallelize_plan,它指定了如何将模型的层分布到不同的 GPU 上。最后,本文使用 parallelize_module 函数将模型和计划应用到设备网格上,以实现张量并行。深度学习中的并行策略概述:4 Tensor Parallelism。原创 2024-12-26 09:45:19 · 617 阅读 · 0 评论 -
深度学习中的并行策略概述:3 Pipeline Parallelism
首先,定义了一个 ModelArgs 类来存储模型参数,然后创建了一个 Transformer 类,它继承自 nn.Module 并包含了嵌入层、Transformer解码层、层归一化和输出线性层。接着,定义了一个 init_distributed 函数来初始化分布式环境,并设置了进程组和设备。在主函数中,初始化了分布式环境,创建了模型和虚拟数据,并将模型手动分割为两个阶段。然后,将模型和数据移动到指定的设备上,并定义了一个损失函数。代码中还包含了一个销毁进程组的步骤,以确保在程序结束时正确清理资源。原创 2024-12-25 08:41:43 · 723 阅读 · 0 评论 -
深度学习中的并行策略概述:2 Data Parallelism
深度学习中的并行策略概述:Data Parallelism数据并行(Data Parallelism)的核心在于将模型的数据处理过程并行化。具体来说,面对大规模数据批次时,将其拆分为较小的子批次,并在多个计算设备上同时进行处理。每个设备负责处理一个子批次,实现并行计算。处理完成后,将各个设备上的计算结果汇总,以便对模型进行统一更新。由于其在深度学习中的普遍应用,数据并行成为了一种广泛支持的并行计算策略,并在主流框架中得到了良好的实现。原创 2024-12-24 09:05:19 · 520 阅读 · 0 评论 -
深度学习中的并行策略概述:1 单GPU优化
深度学习中的并行策略概述:单GPU优化。原创 2024-12-24 09:04:33 · 1356 阅读 · 0 评论 -
深度学习论文: Rewrite the Stars
在神经网络设计的广阔领域中,星操作(即元素级乘法)作为一种具有潜力的技术手段,尚未被充分发掘其应用潜力。尽管星操作已拥有直观的解释,但其在实际应用中所依据的理论基础尚待深入剖析。此外,星操作还具备将输入数据映射至高维非线性特征空间的能力,这一特性与核技巧相似,但无需额外增加网络的宽度。本文创新性地提出了StarNet原型网络,该网络充分利用了星操作的独特优势。StarNet在紧凑的网络架构和有限的计算资源下,展现了卓越的性能和低延迟特性。原创 2024-12-03 13:36:44 · 139 阅读 · 0 评论 -
深度学习论文: FUN-AD: Fully Unsupervised Learning for Anomaly Detection with Noisy Training Data
尽管异常检测领域的主流研究方向倾向于采用一类分类方法,但在实际的工业生产环境中,训练数据往往因标注错误或新产品、翻新品的标签缺失而遭受噪声污染。针对这些挑战,本文创新性地提出了一种完全无监督的异常检测方法,该方法特别适用于处理未经标注且可能含有噪声的训练数据集。本文的方法构建在两个核心观察之上:通常情况下,正常样本之间的特征距离(以成对方式计算)平均值会小于异常样本或不同类别样本之间的距离。基于这一观察,本文认识到最近邻距离可以作为区分正常样本与异常样本的有效手段。原创 2024-12-02 16:59:13 · 161 阅读 · 0 评论 -
深度学习论文: DSORT-MCU: Detecting Small Objects in Real-Time on Microcontroller Units
轻量级神经网络的显著进步已经极大地推动了计算机视觉技术在各类物联网(IoT)应用中的革新,这些应用广泛涉及远程监控和流程自动化等领域。然而,对于众多此类应用而言,小型物体的检测至关重要,但这一领域在计算机视觉研究中仍属未被充分探索的范畴,尤其是在资源受限的嵌入式设备上,这些设备通常配备有性能有限的处理器。为应对这一挑战,本文提出了一种创新的分块策略,旨在优化轻量级且节能的目标检测网络,其中包括YOLO基础模型及广受欢迎的“更快地找到更多物体”(FOMO)网络。原创 2024-11-29 15:39:53 · 130 阅读 · 0 评论 -
深度学习论文: SL-YOLO: A Stronger and Lighter Drone Target Detection Model
SLYOLO,一个基于YOLOv8s的轻量级模型,旨在提高复杂环境下小目标检测的性能,并适用于资源受限的设备。SLYOLO 提出了一个层次扩展路径聚合网络(HEPAN),它可以更好地融合不同层次的特征,从而提高模型捕获小目标的能力。此外设计了一个C2fDCB轻量级模块,通过优化网络的卷积结构,减少模型参数数量和计算复杂性。针对YOLOv8在无人机图像中小目标检测的不足,增加了专门用于小目标的检测层,有效提升了模型对小目标的捕获能力。原创 2024-11-29 10:42:20 · 443 阅读 · 0 评论