- 博客(9)
- 收藏
- 关注
原创 【论文研读】Vision Transformer网络
在cv领域,卷积体系结构占主导地位,后来受NLP成功的启发,开始将类似于CNN的结构与自注意力相结合。按像素展开,每个像素就是一个Patch (一个 Patch 类比 NLP 中的一个词),这样的话,如果以 224*224 的输入尺寸来说,Patch数 = 224 x 224 = 50176。
2024-12-20 17:27:49
762
原创 【综述研读】深度学习多模态图像语义分割前沿进展
图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。
2024-12-17 15:30:45
2119
原创 【论文研读】PSPNet网络
这篇文章提出了一个有效的金字塔场景解析网络的复杂场景理解。中间池化特征提供附加的上下文信息。我们还为基于ResNet的FCN网络提供了一种深度监督优化策略。公开的实现细节可以帮助人们采用这些有用的场景解析和语义分割策略,并推动相关技术的发展。
2024-12-17 15:25:46
781
原创 【论文研读】Deeplab系列
通过这种方式,CRF 可以对像素的类别标签进行全局优化,以消除初始分割过程中可能出现的错误。下图有画出更加详细的ASPP结构(这里是针对VGG网络为例的),将Pool5输出的特征层并联4个分支,每个分支分别通过一个3x3的膨胀卷积层,1x1的卷积层,1x1的卷积层(卷积核的个数等于num_classes)。就是在backbone输出的Feature Map上并联四个分支,每个分支的第一层都是使用的膨胀卷积,但不同的分支使用的膨胀系数不同(即每个分支的感受野不同,从而具有解决目标多尺度的问题)。
2024-12-16 13:03:15
1002
原创 【论文研读】U-Net网络
滑窗法提出被用于判定每个pixel属于哪个class label。通过提供该像素周围的局部区域来预测每个像素的类标签。网络直接将滑窗的patchs送入,首先可以解决定位的问题,其次可以将训练数据数量可以远远大于训练集的图像的数量。相当慢,因为网络必须为每个像素点单独运行,而且由于补丁重叠而存在大量冗余。网络必须分开的对每个取窗的patch进行训练,patches之间有大量的重叠则会出现重复训练定位精确度与context之间有trade-off。
2024-12-03 10:24:11
847
原创 【论文研读】FCN网络
早期的图像处理方法大多基于较粗粒度的信息(如整个图像或较大的区域块)进行推理。这种方法可能无法捕捉图像中精细的细节。随着技术进步,逐渐发展到精细推理阶段,即需要对图像中的每个像素进行分析和理解。最自然的下一步:像素级预测。精细推理的目标是捕捉图像中尽可能多的细节,而对每个像素进行预测是实现这一目标的直观选择。每个像素都被看作是独立的信息单元,单独预测它的类别或属性,可以最大程度上保留图像的空间细节。完全卷积网络(FCN),训练端到端,像素到像素的语义分割超过了最先进的,没有进一步的机制。
2024-11-27 15:36:07
989
原创 操作系统第一章系统概述
5:在操作系统的各个功能组成部分中,进程调度不需要硬件的支持,而中断系统需要,因为进程 调度是由调度算法决定CPU使用权的,中断处理流程的前三个步骤是由硬件直接实现的。通道其实是一种特殊的处理器,具有执行IO指令的能 力,并通过执行通道程序来控制IO操作。中断调用子程序不仅要保存断点(PC的内容),还要保存程序状态字寄存器(PSW)的内容。中断处理过程,PC值由中断隐指令自动保存,而通用寄存器内容由操作系统保存。子程序调用只保存程序断点,即该指令的下一条指令的地址。
2023-05-28 22:51:50
430
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人