- 博客(48)
- 资源 (12)
- 收藏
- 关注
原创 Fast-SCNN: Fast Semantic Segmentation Network
编解码器框架在离线语义图像分割领域处于最先进的水平。随着自主系统的兴起,实时计算变得愈发受到青睐。在本文中,我们引入了快速分割卷积神经网络(Fast-SCNN),这是一种针对高分辨率图像数据(1024×2048像素)的实时语义分割模型,适用于在内存较低的嵌入式设备上进行高效计算。在现有的快速分割双分支方法基础上,我们引入了“学习下采样”模块,该模块可同时为多个分辨率分支计算低级特征。
2024-11-13 14:59:38
1097
原创 TLU - Net:一种用于钢材表面缺陷自动检测的深度学习方法
使用 ResNet 的 TLU-net 的 DICE 比 U-Net 使用 ResNet 的 DICE 提高了约 26%(相对值)。但在 50% 训练数据的情况下,使用迁移学习的 DenseNet 的 DICE 提高了 60%(相对值),而 ResNet 的 DICE 提高了 12%(相对值)。从图中可以看出,在所有情况下,所有类别中最好的 AUC 都是在类别 1 中实现的。我们观察到,在 ResNet 的情况下,81% 的图像得到了改进,而在 DenseNet 的情况下,63% 的图像得到了改进。
2024-11-06 10:45:48
616
原创 深度学习基础--卷积网络
在卷积层,每个隐藏单元的计算基于对邻近输入的加权求和、加偏置以及应用激活函数。由于每个空间位置的权重和偏置保持不变,因此相比全连接网络,卷积网络的参数量大大减少,且不随输入图像的大小而增加。为保证信息完整,采用不同的权重和偏置重复此操作,在每个空间位置生成多通道。典型卷积网络结构包括卷积层与二倍因子降采样层的交替,随网络深入,空间维度通常以二的倍数减小,通道数以二的倍数增加。网络末端通常包含一个或多个全连接层,整合整个输入的信息以产出期望输出。若输出为图像,一个对称的“解码器”则将其上采样至原始尺寸。
2024-09-11 11:43:59
1316
原创 深度学习基础--梯度下降与初始化
在神经网络的背景下,它们用于寻找能够最小化损失函数的参数,使模型能够根据输入准确预测训练数据的输出。基本方法是随机选择一组初始参数,然后逐步进行微小调整,平均而言这些调整会降低损失。每一次的调整都是基于当前参数位置对损失函数梯度的计算结果。本章将讨论两个神经网络特有的问题。首先,我们将探讨如何高效地计算梯度,其次,我们讨论如何进行参数的初始化。如果初始化过程不被妥善处理,初始的损失及其梯度可能会非常大或非常小,这在任何情况下都将阻碍训练过程。7.1 问题定义考虑一个网络 f(x,ϕ)f(x, \phi
2024-08-30 15:57:34
1517
原创 深度学习基础--模型拟合
模型拟合损失与网络参数有关,本章着重于探讨如何确定能使损失最小化的参数值。这个过程称为网络参数的学习,或更通俗地说,是模型的训练或拟合。该过程首先是选取一组初始参数值,随后重复执行两个步骤:(i) 计算损失函数关于参数的导数(梯度);(ii) 根据梯度调整参数,以期减少损失。多次迭代后,目标是使损失函数达到其全局最小值。本章重点讨论参数调整步骤,即采用何种算法来减少损失。6.1 梯度下降为了拟合模型,我们需要一组输入/输出对的训练集 {xi,yi}\{x_i, y_i\}{xi,yi}。
2024-08-30 11:14:51
1585
原创 深度学习基础--损失函数
前三章分别介绍了线性回归、浅层神经网络和深度神经网络。这些都属于函数家族,能够实现从输入到输出的映射,其具体的函数取决于模型参数 ϕ\phiϕ。在训练这些模型时,我们的目标是找到能够为特定任务提供最优输入输出映射的参数。本章将详细阐述“最优映射”的含义。要定义“最优映射”,首先需要一组训练数据集 {xi,yi}\{x_i, y_i\}{xi,yi},即输入和输出的配对。损失函数(Loss Function)L[ϕ]L[\phi]L[ϕ] 能够返回一个数值,这个数值描述了模型预测 f(xi,ϕ)f(x_
2024-08-30 10:57:50
1900
原创 深度学习基础 -- 简介
人工智能(AI)旨在打造模仿智能行为的系统。它覆盖了众多方法,涵盖了基于逻辑、搜索和概率推理的技术。机器学习是 AI 的一个分支,它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展,现在几乎(虽不完全准确)与 AI 同义。深度神经网络是一类机器学习模型,将其应用到数据上的过程称为深度学习。目前,深度网络是最强大和最实用的机器学习模型之一,常见于日常生活中。
2024-08-29 14:30:42
1193
原创 深度学习基础--深度学习网络
本章首先探讨了组合两个浅层网络时所发生的情况。我们认为,第一个网络对输入空间进行了“折叠”,随后第二个网络应用了一个分段线性函数。在输入空间被折叠到其自身时,第二个网络的效果得到了复制。接着,我们证明了这种浅层网络组合实际上是具有两个隐藏层的深层网络的一种特例。我们解释了每一层中的 ReLU 函数如何在多个位置剪切输入函数,并在输出函数中创建更多的“关节”。我们引入了超参数的概念,对于我们目前讨论的网络而言,它包括了隐藏层的数量和每层中隐藏单元的数量。最后,我们对浅层和深层网络进行了比较。
2024-08-29 13:55:36
1399
原创 深度学习基础-- 浅层神经网络
第三章 浅层神经网络第二章我们学习了使用一维线性回归的监督学习方法,但这种模型只能表示出输入与输出之间简单的线性关系。在这一章里,我们将接触到浅层神经网络。这种网络可以表达分段线性函数,并且能力强大到足以近似任何复杂度的多维输入和输出之间的关系。3.1 神经网络示例浅层神经网络是带有参数 ϕ\phiϕ 的函数 y=f[x,ϕ]y = f[x, \phi]y=f[x,ϕ],它将多变量输入 xxx 映射成多变量输出 yyy。关于浅层神经网络的全面定义将在第3.4节中给出。首先,我们通过一个示例网络 f[x
2024-08-29 11:48:53
1290
原创 深度学习基础--监督学习
在监督学习中,我们的目标是建立一个模型,这个模型能够接收输入 x 并给出预测结果 y。简单来说,我们假设输入 x 和输出 y 都是预先定义且大小固定的向量,并且这些向量中的元素排列顺序始终一致。举个例子,如普锐斯汽车的例子,输入 x 总是先包含汽车的年龄,然后是行驶里程,按照这个顺序。这种数据被称为结构化或表格数据(structured or tabular data)。yfx(2.1)yfx2.1当我们根据输入 x 来计算预测结果 y 时,这个过程称为推理(inference)。
2024-08-29 11:34:11
1630
原创 计算机视觉基础 2. 滤波器
模糊滤波器是低通滤波器。它们从图像中去除高空间频率内容,只留下低频空间分量。结果是图像失去了细节,看起来很模糊。图像模糊在计算机图形学和计算机视觉中有许多应用。它可用于降低噪声(如图17.1所示),揭示不同尺度下的图像结构,或用于对图像进行上采样和下采样。Blur是通过计算输入像素值的小邻域上的局部平均值来实现的。这可以通过卷积来实现。然而,有非线性方法可以去除图像细节,如各向异性扩散[385]和双边滤波[376]。当我们想在去除噪声的同时保留一些图像细节(如轮廓)时,这些非线性模糊技术非常有用。
2024-08-28 15:52:30
1223
1
原创 计算机视觉基础. 1 学习导论
学习是一种非常通用和强大的解决问题的方法。它将数据转化为算法。在这个大数据时代,学习往往是首选方法。它是几乎所有现代计算机视觉系统的主要组成部分。
2024-08-28 11:54:45
1311
原创 Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection(翻译)
在(半)自动化的视觉工业检测中,基于学习的方法评估视觉缺陷,包括深度神经网络,使得在高分辨率图像上的小至像素大小的缺陷模式得以处理。这些通常很少出现的缺陷模式的出现解释了对标记数据集的普遍需求。为了缓解这一问题并推进无监督视觉检测的最新技术,这项工作提出了一个基于DifferNet的解决方案,增强了注意力模块:AttentDifferNet。它在三个工业检测的视觉异常检测数据集上提高了图像级检测和分类能力:InsPLAD-fault、MVTec AD和半导体晶圆。
2024-08-23 11:45:14
826
原创 Stable Diffusion WebUI安装ControlNet 遇到的问题
2.第二个问题是一直Installing ,虽然下载下来了,但还是安装不上,卡住了。排查代码发现,原来是有库没安装,但它自己又下载不下来,所以卡住了。最近研究Stable Diffusion ,在安装ControlNet遇到了几个问题,总算解决了。是需要下载这个库,后面还有几个也都要下载,手动下载,然后使用pip 安装,就行了。1.第一个是连不上github,可以使用国内的这个。
2024-08-14 16:36:48
906
转载 简单阐述一下BP的过程
BP(Back Propogation)算法是一种最有效的学习方法,主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的。前向过程中通过与正确标签计算损失,反向传递损失,更新参数,优化至最后的参数。的值了,整个问题就转变成了下面的优化问题了,也就是我们需要求函数的最小值。是表示的学习率,通常不会很大,都是0.01以下的值,用来控制更新的步长。的值就是我们需要更新的目标,但是我们只有一些。是一个随机初始化的权重,的值,最终逼近真实效果。
2024-08-06 11:45:10
172
原创 YoloV10 论文翻译(Real-Time End-to-End Object Detection)
近年来,YOLO因其在计算成本与检测性能之间实现了有效平衡,已成为实时目标检测领域的主流范式。研究人员对YOLO的架构设计、优化目标、数据增强策略等方面进行了探索,并取得了显著进展。然而,YOLO对非极大值抑制(NMS)后处理的依赖阻碍了其端到端的部署,并对推理延迟产生了不利影响。此外,YOLO中各组件的设计缺乏全面和深入的审查,导致计算冗余明显,并限制了模型的性能。这使得YOLO的效率不尽如人意,且存在相当大的性能提升潜力。
2024-08-05 15:06:52
1470
原创 YoloV9 论文翻译:Learning What You Want to LearnUsing Programmable Gradient Information
当前的深度学习方法侧重于如何设计最合适的目标函数,以使模型的预测结果尽可能接近真实值。同时,必须设计一个合适的架构,以便为预测获取足够的信息。现有方法忽略了一个事实,即当输入数据经历逐层特征提取和空间变换时,会丢失大量信息。本文将深入探讨数据通过深度网络传输时的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络为实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息来计算目标函数,从而获得可靠的梯度信息来更新网络权重。
2024-08-05 14:15:00
768
原创 SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers(SegFormer)翻译
我们提出了SegFormer,这是一个简单、高效且强大的语义分割框架,它将Transformer与轻量级多层感知机(MLP)解码器相结合。SegFormer具有两个吸引人的特点:1)SegFormer包含一个新颖的层次结构Transformer编码器,该编码器能够输出多尺度特征。它不需要位置编码,从而避免了当测试分辨率与训练分辨率不同时,位置编码的插值导致性能下降的问题。2)SegFormer避免了复杂的解码器。所提出的MLP解码器从不同层聚合信息,从而结合了局部注意力和全局注意力,以产生强大的表示。
2024-08-05 11:31:32
1233
原创 Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers(SETR)翻译
最新的语义分割方法采用具有编码器-解码器架构的全卷积网络(FCN)。编码器逐步降低空间分辨率,并学习具有更大感受野的更抽象/语义化的视觉概念。由于上下文建模对分割至关重要,因此最新的研究重点是通过扩张/空洞卷积或插入注意力模块来增大感受野。然而,基于编码器-解码器的FCN架构保持不变。在本文中,我们旨在通过将语义分割视为序列到序列的预测任务来提供一个不同的视角。具体来说,我们部署了一个纯Transformer(即没有卷积和分辨率降低)来将图像编码为一系列补丁。
2024-08-05 10:42:18
694
原创 End-to-End Object Detection with Transformers(Detection Transformer)翻译
我们提出了一种新方法,将目标检测视为直接的集合预测问题。我们的方法简化了检测流程,有效消除了对许多手工设计组件的需求,如非极大值抑制过程或锚框生成,这些组件显式编码了我们对任务的先验知识。新框架称为检测变换器(DEtection TRansformer,简称DETR),其主要成分是通过二分匹配强制唯一预测的基于集合的全局损失,以及一个变换器编码器-解码器架构。给定一组固定的小规模学习到的目标查询,DETR推理目标之间的关系和全局图像上下文,以并行方式直接输出最终的预测集合。
2024-08-04 11:46:30
904
原创 TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Transformer 在图像中的应用)翻译
虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉领域的应用仍然有限。在计算机视觉中,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们证明了这种对卷积神经网络(CNN)的依赖并不是必需的,并且直接应用于图像块序列的纯Transformer在图像分类任务上可以表现得非常好。
2024-08-04 10:03:01
1272
原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking(SiamTPN:用于实时无人机跟踪的孪生Transformer) 翻译
近年来,无人机(UAV)跟踪因其在路径规划[25]、视觉监控[43]和边境安全[44]等多个领域的巨大潜力而受到越来越多的关注。尽管视觉目标跟踪方法已经取得了长足的进步,但实时跟踪问题仍未得到足够重视。此外,性能较低的小型设备上固有的电源资源限制进一步制约了无人机跟踪的发展。由于移动设备上软件和硬件的优化,以及轻量级但强大的骨干网络[24, 36, 41]的进步,基于视觉分类、目标检测和实例分割的实时应用已经在CPU端实现。
2024-08-03 22:51:13
1362
原创 Attention和Self-Attention 详解
之前一直用transformer做各种工作,但self-attention 中的QKV 矩阵是啥意思,为啥相乘感觉一直没太理解,今天好好研究了一下,记录下。说self-attention就要先理解下attention到底是咋个意思。Attention 思想主要是来自于Seq2Seq 中。
2024-08-02 17:38:11
1070
原创 ITK SimpleITK Window环境下编译
最近在工作中涉及到3D 数据的分割,深度学习方法慢,且构建数据集费时费力,经过一番查找,最终选择使用ITK这个库。最开始的时候是使用python 环境下的SimpleITK ,也实现了我想要的功能。但最终要和QT C++ 的项目合并,所以只能使用C++ 下的代码了。后来因为速度上的问题,又编译了基于Cuda 11.2 的GPU 版本的ITK.这里记录一下我在使用ITK 过程中遇到的坑和问题,希望能给后来人有些帮助。
2024-04-09 18:09:48
986
10
原创 目标检测--YoloV5
以Yolov5s的结构为例,原始608×608×3的图像输入Focus结构,采用切片操作,先变成304×304×12的特征图,再经过一次32个卷积核的卷积操作,最终变成304×304×32的特征图。需要注意的是:Yolov5s的Focus结构最后使用了32个卷积核,而其他三种结构,使用的数量有所增加,先注意下,后面会讲解到四种结构的不同点。在网络训练中,网络在初始锚框的基础上输出预测框,进而和真实框groundtruth进行比对,计算两者差距,再反向更新,迭代网络参数。中,采用的都是普通的卷积操作。
2024-03-29 09:24:59
429
1
原创 目标检测--Yolov7
从网络结构上看和yolov3, yolov5 啥的相差不大,都是通过backbone,neck, head,最后输出三个feature map, 但里面的网络细节上有了不小的改动。将每个【真实框】与得到的9个anchor 匹配: 分别计算【真实框】与这9个anchor 的宽高比(比较大的除以比较小的,比值大于1),得到两个比较值,取最大值,如果最大值小于阈值,就将这个anchor 框设置为正样本(正样本的意思就是说这个框里面有要检测的物体,负样本是说,有个框,但框里没有要检测的物体)。
2024-03-28 10:16:09
358
1
原创 目标检测--YoloX
以下整理和图像均来自江大白老师的知乎讲解:深入浅出Yolo系列之Yolox核心基础完整讲解知乎YOLOX 结构图yolov3 相比,最大的改进是在head阶段,yolov3结构如下yolov3 head中,直接将neck层融合后的结果,进行卷积操作,然后得到 (n*n)*255 的feature map而yolox head 则使用了“解耦头”操作,将neck层的结果解耦,如下图。
2024-03-26 09:57:28
503
原创 A Unified Model for Multi-class Anomaly Detection
A Unified Model for Multi-class Anomaly Detection
2023-02-24 10:11:52
262
原创 分割论文:Adapting The Hypersphere Loss Function From Anomaly Detection To Anomaly Segmentation
Adapting The Hypersphere Loss Function From Anomaly Detection To Anomaly Segmentation
2023-02-21 10:23:39
497
原创 自回归和自编码
以前看论文和博客的时候经常看到自回归模型,自编码模型,感觉云里雾里的。今天搜了搜,看清了本质。自回归语言模型,说白了就是通过上文一步一步预测下文,不能看见未来信息的模型。像坚持只用单向Transformer的GPT就是典型的自回归语言模型自编码语言模型就是 类似于bert 这种,使用了 mask LM 的,可以使用上下文语境信息的。这也是为什么bert 是双向的原因。区别与bi lstm 这种,使用两层网络的...
2022-04-26 17:27:13
1302
原创 从0开始训练bert
之前一直对bert 预训练结果是怎么来的感兴趣,今天参考了下github 上的代码,跑了一边终于知道是怎么来的了,在这分享下。代码地址:codertimo/BERT-pytorch: Google AI 2018 BERT pytorch implementation (github.com)https://github.com/codertimo/BERT-pytorchbert 模型训练的任务:在bert 模型中,主要干了两个事,一是判断两句话 是否是上下文,二是从这两句话中...
2022-04-08 18:01:14
3144
3
原创 统计语言模型
统计语言模型 基于概率的判别模型。统计语言模型把语言(词的序列)看作一个随机事件,并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V,对于一个由 V 中的词构成的序列S = 〈w1, · · · , wT 〉 ∈ Vn,统计语言模型赋予这个序列一个概率P(S),来衡量S 符合自然语言的语法和语义规则的置信度。用一句简单的话说,统计语言模型就是计算一个句子的概率大小的这种模型。基本语言模型公式:P(w1,w2,w3…,wi)=P(w1)P(w2|w1)P(w3|w1,w..
2021-12-21 11:13:51
432
原创 多分类任务的混淆矩阵和评价指标
之前一直不明白多分类任务的混淆矩阵,今天研究了一下。拿一个三分类任务来说 "cat", "dog","bird",有8个预测结果预测值:[dog, dog, cat ,cat, cat, dog, bird, cat]真实值:[dog, cat, cat, cat, bird, bird,cat, cat]要对每一个类别做混淆矩阵。拿cat类来说,真实值是cat, 预测值也是cat 也就是TP 值3, 的值是 2, 真实值是不是cat,但预测值是cat, 也就是FP的值是1 , 真实值是ca
2020-09-16 12:36:48
3127
opencv-contrib_python-3.4.2.16-cp37-amd64.zip
2019-08-23
opencv_python-3.4.2.16-cp37-cp37m-win_amd64.whl
2019-08-23
Nemesis网络发包工具源码
2018-02-05
linux下用curl实现远程下载文件代码
2017-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人