
深度学习基础知识
文章平均质量分 90
托比-马奎尔
只是一个学习小白,分享自己学习的知识。
展开
-
现代卷积神经网络
经典机器学习的流水线:①获取一个有趣的数据集;②根据光学、几何学,手动对特征数据集进行预处理;③通过标准的特征提取算法,如SIFT(尺度不变特征变换)和SURF(加速鲁棒特征)或其他手动调整的流水线来输入数据;④将提取的特征送入最喜欢的分类器中。原创 2024-03-19 16:18:53 · 840 阅读 · 0 评论 -
5.10.10 用于图像识别的深度残差学习
深度卷积神经网络为图像分类带来了一系列突破。深度网络自然地以端到端的多层方式集成低/中/高级特征和分类器,并且特征的“级别”可以通过堆叠层的数量(深度)来丰富。这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题,它从一开始就阻碍了收敛。然而,这个问题已在很大程度上通过和中间归一化层得到解决,这些归一化层使具有数十层的网络能够开始收敛于具有反向传播的随机梯度下降(SGD)。当更深的网络能够开始收敛时,退化问题就暴露出来了:随着网络深度的增加,准确性变得饱和,然后迅速退化。原创 2024-05-14 14:13:10 · 1107 阅读 · 0 评论 -
6.26.3 基于Transformer的深度神经网络在数字乳腺断层合成图像上的乳腺癌分类
开发一种有效的深度神经网络模型,该模型结合了相邻图像部分的上下文,以检测数字乳腺断层合成(DBT)图像上的乳腺癌。数字乳房断层合成(DBT)是一种医学成像技术,其中检测器围绕患者以有限角度旋转并记录多幅图像。然后将这些图像重建为二维(2D)切片堆栈,从而改进病变检测、表征和定位。许多研究表明,与2D数字乳房x线摄影相比,DBT在筛查和诊断成像结果方面都有改善(1,2)。虽然DBT正在成为乳腺癌检测的标准,但其解释时间仍然是一个问题(3)。使用神经网络进行DBT的一个关键挑战是三维(3D)数据量;原创 2024-06-27 10:35:55 · 1221 阅读 · 0 评论 -
金字塔模型
金字塔模型(Pyramid Model)在深度学习中是一种用于多尺度图像分析和处理的模型结构,它基于金字塔的概念,即从图像的不同尺度或分辨率上提取信息。金字塔模型特别适用于处理需要在不同尺度上捕捉信息的任务,例如物体检测、分割和图像检索。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。金字塔模型的核心思想是通过创建图像的多个尺度版本来捕捉不同层次的信息。原创 2024-08-21 21:41:00 · 1684 阅读 · 0 评论 -
深度学习中常见的激活函数
深度学习中常用的激活函数原创 2024-08-21 21:10:56 · 507 阅读 · 0 评论 -
动态卷积(轻量级卷积)替代多头自注意力
动态卷积,它比自注意力更简单、更有效。我们仅基于当前时间步长预测单独的卷积核,以确定上下文元素的重要性。这种方法所需的操作数量随输入长度呈线性增长,而自注意力是二次的。在大规模机器翻译、语言建模和抽象摘要上的实验表明,动态卷积比强自注意模型有更好的改进。原创 2024-07-29 11:33:25 · 2268 阅读 · 1 评论 -
DeiT : Training data-efficient image transformers & distillation through attention
查询向量与一组k个键向量(组合成一个矩阵)使用内积进行匹配。然后用softmax函数对这些内积进行缩放和规范化以获得 k 个权重。注意力的输出是一组 k 个值向量(打包成)的加权和。对于一个包含N个查询向量的序列(封装到中),它产生一个输出矩阵(大小为N × d):其中Softmax函数应用于输入矩阵的每一行。提供了适当的规格化。为了防止当d较大时,点积结果会非常大,导致softmax函数的梯度变得非常小,从而引发梯度消失问题。缩放因子有助于保持梯度的稳定性。原创 2024-07-28 20:42:09 · 894 阅读 · 0 评论 -
相对位置偏置代码解析
假设,则 2 * window_size - 1 = 13;嵌入层的大小为13*13=169,创建一个大小为169*4的嵌入矩阵。原创 2024-07-24 16:52:56 · 911 阅读 · 0 评论 -
6.26.4.1 基于交叉视角变换的未配准医学图像多视角分析
许多医学成像任务使用来自多个视图或模式的数据,但很难有效地将这些数据结合起来。虽然多模态图像通常可以在神经网络中作为多个输入通道进行配准和处理,但来自不同视图的图像可能难以正确配准(例如,[2])。因此,大多数多视图模型单独处理视图,只有在全局池化之后才将它们组合起来,这样就消除了视图之间的任何局部相关性。如果这些局部相关性对图像的解释很重要,则可以通过在更早的空间特征级别上链接视图来改进模型。提出了一种在空间特征图层次上链接未注册视图的方法。原创 2024-06-27 21:52:52 · 944 阅读 · 0 评论 -
6.26.8 基于多视角深度卷积神经网络的高分辨率乳腺癌筛查
开发了一种新的DCN,它能够处理乳房x线摄影筛查的多个视图,并利用大分辨率图像而不缩小。将这种DCN称为多视图深度卷积网络(MV-DCN)。网络学习预测放射科医生的评估,将传入的样本分类为BI-RADS 0(“不完整”),BI-RADS 1(“正常”)或BI-RADS 2(“良性发现”)。研究了数据集大小和图像分辨率对所提出的MV-DCN筛选性能的影响,这将作为优化未来深度神经网络用于医学成像的事实上的指导方针。通过可视化预测进一步研究了所提出的MV-DCN的潜力。原创 2024-06-27 18:09:19 · 1041 阅读 · 0 评论 -
6.7.32 用于计算机辅助检测和诊断研究的精选乳房 X 线摄影数据集
计算机辅助检测 (CADe) 和诊断 (CADx) 系统旨在协助放射科医生对乳房 X 线摄影进行解释。CADe 用于发现乳房 X 线摄影中的异常结构,而 CADx 用于确定所发现异常的重要性。当前的 CADe 系统受到高假阳性率的限制,并且乳房 X 线摄影的 CADx 系统尚未获准用于临床。尽管乳房 X 线摄影中 CAD 的技术难度很大,但还有另一个障碍必须解决才能实现这项研究:决策支持系统评估。原创 2024-06-11 10:57:42 · 1071 阅读 · 0 评论 -
6.7.12 使用 SWIN Transformer 通过热图像实现乳腺癌检测系统
乳腺癌是重大的公共卫生挑战,需要有效的诊断方法。虽然超声、乳房 X 线照相和 MRI 仍然至关重要,但它们在定期、短间隔大规模筛查中的实用性有限。热成像作为一种非侵入性且经济有效的选择,具有常规自我筛查的潜力。本研究利用基于自注意力的 Vision Transformer 设计代替传统的 CNN,探索了用于乳腺癌检测的各种 SWIN 变压器变体和增强策略。使用,将其划分为训练、测试和验证子集,比例为 70:15:15,获得的结果显示出巨大的前景。原创 2024-06-09 11:05:45 · 1417 阅读 · 2 评论 -
5.31.15 使用图像到图像转换和 YOLO 技术对先前的乳房 X 光检查结果中的异常进行早期检测和分类
乳腺癌最常见的症状是乳腺结构和组织外观的严重变化,还伴有乳腺肿瘤和细胞簇的快速形成。乳房 X 线检查是早期检测和诊断乳腺癌的有效医学影像工具之一,可降低早期乳腺癌的晚期和致死率。为了检查潜在病变(如肿块、钙化、结构扭曲),放射科医生依靠人类的视觉理解来检测和提取乳房 X 线照片中的所有诊断信息。然而,已证明大约 10% 到 30% 的癌症病例在筛查乳房 X 线照片中被漏掉,这会产生高达 50% 的假阴性率,具体取决于病变类型和乳腺密度 [6]。原创 2024-06-07 20:59:00 · 1573 阅读 · 0 评论 -
5.31.8 学习深度特征以实现判别定位
一种通用技术,称为类激活映射 (CAM),用于具有全局平均池化的 CNN。经过分类训练的 CNN 能够学习执行对象定位,而无需使用任何边界框注释。类激活图使我们能够可视化任何给定图像上的预测类别分数,突出显示 CNN 检测到的判别性对象部分。在 ILSVRC 基准上评估了我们在弱监督对象定位上的方法,证明了我们的全局平均池化 CNN 可以执行准确的对象定位。此外,证明了 CAM 定位技术可以推广到其他视觉识别任务,即我们的技术可以生成通用的可定位深度特征。原创 2024-06-06 21:02:34 · 1121 阅读 · 0 评论 -
5.23.1 深度学习在乳腺癌成像中的应用
通常,乳房成像是使用数字乳房X线摄影(DM)、数字乳房断层合成(DBT)、超声(US)、磁共振成像(MRI)或上述的组合来进行。在 DM 中,X 射线穿过乳房并由数字 X 射线探测器收集,创建乳房的二维 (2D) 图像。然而,它存在组织叠加的问题。特别是在致密乳房(纤维腺体组织密度较高的乳房)中,纤维腺体组织掩盖病变的机会很高。在 DBT 中,从稍微不同的位置进行多次 X 射线扫描,从而产生与 DM 相比叠加效应减少的(部分)断层扫描图像。DBT 的一个缺点是其解释更加困难,导致阅读时间增加。原创 2024-05-23 22:15:58 · 1374 阅读 · 0 评论 -
5.14.5 不同 CNN 对超声图像乳腺肿瘤分类的比较
乳腺癌是女性最常见的癌症,癌症筛查是通过乳房超声 (BUS) 成像和乳房 X 光检查进行的。目前的问题是需要 依赖大型且带注释的BUS数据集进行CNN训练。缓解这个问题的一个可能的解决方案是利用迁移学习和微调。原创 2024-05-20 21:42:00 · 1088 阅读 · 0 评论 -
5.10.8 Transformer in Transformer
Transformer是一种主要基于自注意力机制的神经网络,它可以提供不同特征之间的关系。CV 任务中的输入图像和真实标签之间存在语义差距。ViT 将给定图像划分为多个局部块作为视觉序列。然后,可以自然地计算任意两个图像块之间的注意力,以便为识别任务生成有效的特征表示。原创 2024-05-12 21:49:58 · 985 阅读 · 0 评论 -
5.10.6 用于乳腺癌超声图像分类的Vision Transformer
医学超声(US)成像由于其易用性、低成本和安全性已成为乳腺癌成像的主要方式。卷积神经网络(CNN)有限的局部感受野限制了他们学习全局上下文信息的能力。利用 ViT 对使用不同增强策略的乳房 US 图像进行分类。卷积神经网络(CNN)已成为自动医学图像分析应用(例如图像分类)中最常见的网络。然而,由于其局部感受野,这些模型在学习长距离信息方面表现不佳,限制了它们执行视觉任务的能力。用于图像分类应用的 Vision Transformer (ViT) 架构。原创 2024-05-12 17:36:25 · 801 阅读 · 0 评论 -
使用深度卷积神经网络进行 ImageNet 分类
大数据集包括 LabelMe(由数十万张完全分割的图像组成)和 ImageNet(由 22,000 多个类别的超过 1500 万张带标签的高分辨率图像组成)CNN就是这样一类模型,它们的容量可以通过改变深度和广度来控制,并且它们还对图像的性质(即统计的平稳性和像素依赖性的局部性)做出强有力且基本正确的假设。与具有类似大小层的标准前馈神经网络相比,CNN的连接和参数要少得多,更容易训练。原创 2024-04-17 16:02:15 · 1532 阅读 · 0 评论 -
计算机视觉中各种归一化算法
归一化算法是对激活函数的输入进行归一化将feature map shape设为[N,C,H,W],其中N表示batch size,C表示通道数,H、W分别表示特征图的高度、宽度。原创 2024-04-09 17:58:10 · 1695 阅读 · 1 评论