- 博客(24)
- 收藏
- 关注
原创 Gated CNN:卷积门控
Gated CNN的核心思想是使用卷积层代替循环结构。与RNN相比,卷积层的计算可以并行,这让Gated CNN能够更快地处理长文本。同时,通过堆叠卷积层,模型可以捕捉更大的上下文,尽管它的上下文范围是有限的,但在实践中已证明这种方法可以达到甚至超越RNN的表现。
2024-11-02 11:39:43
1730
原创 MambaOut: 是否真的需要视觉mamba?
MambaOut在ImageNet分类任务中,成功验证了SSM并不必要,且能有效超越现有的视觉Mamba模型。在目标检测和语义分割等长序列任务中,Mamba仍然具有优势,MambaOut无法完全达到最先进的Mamba模型的性能。
2024-10-24 12:09:08
1874
1
原创 VMamba:视觉SSM
摘要VMamba 是一个视觉骨干网络,基于状态空间模型(SSM),其复杂度是线性的。该架构的核心是视觉状态空间(VSS)模块和 2D 选择性扫描(SS2D)模块。通过四条扫描路径的遍历,SS2D 实现了从不同方向获取上下文信息的能力,同时降低了计算成本。
2024-10-22 16:45:39
2153
原创 VM-Unet:vision mamba unet用于医学分割
先说明整体架构:首先是layer norm层,输入归一化,之后有两个分支:分支1: 经过归一化,经过一个线性层进行线性变换,然后经过一个激活函数(SiLU)分支2:先经过线性层,再通过DW-Conv进行空间特征提取。卷机操作后,使用激活函数,输入到SS2D进一步提取特征,再做归一化两分支处理完,分别将输出通过逐元素乘积进行融合,之后通过一个线性层处理,再通过残差连接形成最后的输出。这里我用Vmamba论文中的SS2D图片来说明扫描方向。
2024-10-22 13:28:51
1341
原创 ACC-UNet:面向2020年代的完全卷积UNet模型
语义分割任务的目标是对图像中的每个像素进行分类,这在医学图像分析、自动驾驶和卫星影像处理等领域有着重要的应用。传统的 UNet 模型利用对称的编码器-解码器结构和跳跃连接(skip connections)在这一任务上取得了很好的效果。随着 Transformer 模型的出现,研究者开始探索如何结合 CNN 和 Transformer 的优势,以提升模型的表现能力。倒置瓶颈 是一种在深度学习中常用的结构,特别是在移动端模型(如 MobileNetV2)中使用。先扩展,后压缩:输入特征图的通道数cin。
2024-09-01 14:05:26
2302
10
原创 DeepLab: 使用深度卷积网络、空洞卷积和全连接 CRF 进行语义图像分割
DCNN网络中的特征分辨率降低会影响定位精度,同时为解决多尺度物体问题,对同一图像进行多种尺度的重新采样(缩放),然后将这些不同尺度的图像输入到深度卷积神经网络(DCNN)中,使得计算复杂度高,存储和内存消耗大以及训练和推理时间延长。在ASPP中,特征整合通过不同空洞率的卷积操作生成多尺度特征图,然后将这些特征图拼接在一起,形成一个包含丰富上下文信息的综合特征表示。卷积层等操作进一步融合这些特征。
2024-08-31 16:09:54
1123
原创 SETR:基于Transformers的语义分割
这篇论文提出了一种新的语义分割方法,称为SETR(SEgmentation TRansformer)。
2024-08-28 15:18:40
849
原创 U-Net 用于生物医学图像分割的卷积神经网络架构
U-Net是一种基于全卷积网络(Fully Convolutional Network, FCN)的图像分割架构。它的独特之处在于其“U”形结构,由对称的编码器(Encoder)和解码器(Decoder)组成。编码器负责从图像中提取多尺度特征,而解码器则将这些特征逐步恢复到原始分辨率,从而生成高精度的分割结果。U-Net凭借其独特的架构设计和灵活的损失函数选择,在图像分割任务中取得了广泛的成功。通过合理的数据准备、优化器选择和损失函数调整,U-Net能够在多种分割任务中提供出色的结果。
2024-08-21 13:34:19
2122
原创 通过表示学习和身份对抗训练对面部行为理解
这篇论文提出了一种基于大规模预训练和身份对抗训练的面部动作单元检测方法。这种方法不仅提高了模型的准确性,还增强了模型的泛化能力。未来的研究方向包括进一步优化模型,探索使用更多的身体特征(如全身姿态)来进行表情识别,以及引入对抗训练和半监督学习来进一步提升模型性能。
2024-08-19 13:59:52
1144
原创 DDAMFN:使用双向注意混合特征网络进行面部表情识别
本文介绍了一种新颖的网络架构——双向注意混合特征网络 (DDAMFN),它在多个FER基准数据集上的表现优异,并展示了其在处理复杂面部表情识别任务中的强大能力。Stride=1:当 stride=1 时,卷积核在输入特征图上滑动时,每次移动一个像素,这意味着输出特征图的空间尺寸(高度和宽度)与输入特征图相同。残差连接:最终,将输入特征图与经过两次卷积后的特征图逐元素相加,形成输出特征图。:使用混淆矩阵分析了模型在不同表情类别上的表现,发现了模型在处理一些易混淆表情(如“厌恶”和“愤怒”)时的困难。
2024-08-19 09:03:20
1008
原创 EdgeFace: 边缘设备高效人脸识别模型
EdgeFace 受到了混合架构的启发,结合了卷积神经网络(CNN)和Transformer模型的优势,并引入了一个,从而在保持低计算成本和紧凑存储的同时,实现了出色的面部识别性能,使其非常适合部署在边缘设备上。
2024-08-18 22:15:11
1007
2
原创 POSTER V2 一个更简单且更强大的面部表情识别网络
这篇论文主要提出了一种名为POSTER++的改进版面部表情识别(FER)网络,相较于原有的POSTER方法,POSTER++在性能和计算效率上都有显著提升。
2024-08-18 15:15:05
1122
原创 AVCaptureDeviceTypeExternal is deprecated for Continuity Cameras解决方法
使用cv2库,打开macbook摄像头,总会跳转到手机上,查了网上的解决方法,修改Info.plist之类的都没有解决成功。打开iphone - 设置 - 通用 - 隔空播放与接力 - 连续互通相机关掉!这里提供最直接最简单的方法!
2024-07-26 19:37:03
306
原创 【翻】GOAT: Go to any thing
在家庭和仓库等部署场景中,移动机器人需要能够自主导航较长时间,并能流畅地执行由人类操作员以直观易懂的方式表述的任务。我们提出了一个名为“走向任何事物”(GOAT)的通用导航系统,它能够应对这些要求,具备三个关键特性:a) 多模态:它可以处理通过类别标签、目标图像和语言描述指定的目标,b) 终身:它能够从同一环境中的过往经验中获益,c) 平台无关:它可以快速部署在具有不同外形的机器人上。
2023-11-17 15:31:44
678
2
原创 【翻】CNN-Based Pill Image Recognition for Retrieval Systems
药物应按照处方指示进行服用,误差幅度应尽量减小甚至降至零,否则后果可能是致命的。由于配备摄像头的移动设备的普及,患者和医生可以轻松地拍摄未识别的药丸照片,以避免错误的处方或用药。这一研究领域属于信息检索的范畴,更具体地说是图像检索或识别。已经进行了多项研究,以提出准确的模型,即准确匹配输入图像与存储图像。最近,神经网络已被证明在识别数字图像方面非常有效。。**本文提出了三种神经网络(CNN)架构:两个混合网络与分类方法配对(CNN+SVM和CNN+kNN)以及一个ResNet-50网络。
2023-10-15 01:07:29
319
2
原创 【翻】Pill Detection Model for Medicine Inspection Based on Deep Learning
基于深度学习的药品检验药丸检测模型。
2023-10-13 21:08:09
374
1
原创 ePillID 数据集: 用于药丸识别的低射细粒度基准数据集
该文介绍了 ePillID,一个用于药丸图像识别的大型公共基准,包含了13,000张图像,代表了9,804种外观类别。这个基准在低样本识别设置下进行了评估,大多数外观类别只有一张参考图像。研究表明,使用多头度量学习方法和双线性特征的最佳基线表现出色,但仍然存在难以区分的类别。这个基准对于改进药丸图像识别系统具有重要意义。
2023-10-06 16:20:55
527
1
翻译 Mask R-CNN论文解析
Mask R-CNN 通常用于实例分割任务,而不是检测任务,Mask R-CNN是基于 Faster R-CNN 的。(instance segmentation)是检测图像中存在的所有物体,同时准确地按像素对每个实例进行分类的任务。它与语义分割的不同之处在于,它不区分同一分类类别的实例。换句话说,它将检测物体的物体检测任务与分类每个像素类别的语义分割任务结合在一起。
2023-10-05 16:35:47
358
原创 pytorch实现checkpoint
深度学习模型在训练中需要保存参数,checkpoint就是在每个训练周期后保存模型参数快照的术语。如同打游戏时,需要保存关卡一样,随时通过加载保存的文件恢复游戏。深度学习模型的训练通常需要很长的时间,为了不丢失训练进度,建议在每个时期对模型的参数实施checkpoint,但前提是它是该时间最佳参数。
2023-09-03 15:36:40
519
原创 DETReg:利用区域先验进行无监督预训练以检测物体
目前的方法没有对整个物体检测网络进行预训练,尤其是定位和区域嵌入部分。如图所示以前的方法如SwAV,只对检测器backbone进行预训练,而不对定位进行预训练。因此预训练后的模型无法检测到物体,如绿框。定位模块必须随机初始化,并针对下游任务从头开始训练。最近的Up-DETR对整个网络进行了预训练,然而由于预训练过程中缺少groundtruth,其预训练任务只能学会重新识别随机区域,而不是物体。因此,预训练后,也无法有效的定位实际物体,橙色框所示。
2023-09-02 16:07:40
386
原创 SwAV对比聚类分配
SwAV是SSL(self-supervised learning)领域中总是被引用的模型。该算法使用传统的对比学习方法(contrastive learning method),但是无需计算成对比较(pairwise comparison),也可以在线(online)使用。使用“同一图像的多个视图之间切换分配”(SwappingAV。
2023-09-01 15:09:59
2940
4
原创 深度学习入门(斋藤康毅)3.6手写数字识别_No module named ‘dataset‘ 问题解决
深度学习入门书中3.6章节手写数字识别遇到的问题及解决方案No module named 'dataset'
2022-08-01 15:26:49
841
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人