深度学习-计算机视觉
文章平均质量分 81
本文记录计算机视觉学习和科研的内容,希望多多交流
Nelson_hehe
人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文解析:一文弄懂Vision Transformer!
本文主要介绍《视觉Transformer(ViT)》,将Transformer从NLP领域迁移至计算机视觉。通过将图像分割为固定大小的Patch并进行线性嵌入,结合位置编码输入Transformer Encoder,利用自注意力机制捕捉全局信息,最终由MLP Head完成分类。相较于CNN,ViT归纳偏置更少,但在大规模数据集上性能更优。实验表明,小数据集下CNN表现更好,而数据集足够大时ViT更具优势。ViT通过分块策略降低计算复杂度,并探索图像与文本跨模态应用,为视觉任务提供全新架构思路。原创 2025-06-10 19:29:32 · 1204 阅读 · 0 评论 -
论文解析:一文弄懂ResNet(图像识别分类、目标检测)
本文主要介绍论文:深度残差网络(ResNet),通过残差学习框架解决深层网络训练退化问题。技术上采用快捷连接机制,包含恒等捷径与投影捷径,配合深层瓶颈结构减少参数量。网络以分层残差块堆叠构建,突破深度限制实现高效训练。创新点在于残差学习框架的提出、高效残差块设计及极深网络训练能力。实验通过 top-1/top-5 错误率、mAP 等指标验证性能,为深层网络设计提供范式,凸显迁移学习价值与创新方法论意义。原创 2025-06-10 18:43:50 · 1823 阅读 · 0 评论 -
论文解析:一文弄懂U-Net(图像分割)!
本文围绕医学图像分割领域的U-Net展开。鉴于医学图像分割精度要求高、数据少易过拟合等问题,U-Net应运而生。其通过独特的“U”型网络结构、跳跃连接实现特征融合;运用数据增强、重叠拼接等策略高效利用数据;采用下采样与上采样操作提取特征。U-Net具有模块化设计优势,相较传统方法更高效,其架构、连接机制、数据处理策略等,为图像分割研究与改进提供了重要启发 。原创 2025-06-09 18:28:20 · 2137 阅读 · 0 评论 -
论文解析:一文弄懂Transformer!
### 摘要 本文提出Transformer模型,基于自注意力机制构建,解决循环神经网络(RNN)无法并行计算、卷积网络长距离依赖需多层堆叠的问题。多头自注意力通过分割输入、并行计算多组注意力分布增强特征捕捉;解码器掩码自注意力避免信息泄露,适配自回归生成。模型引入层归一化、残差连接及正弦余弦位置编码,优化训练稳定性与位置感知。实验表明,其在机器翻译等任务中性能优于传统模型,并行计算与模块化设计为后续预训练模型奠定基础,推动自然语言处理长序列建模发展。原创 2025-06-08 14:19:04 · 1770 阅读 · 0 评论 -
一文清晰理解目标检测指标计算
本文系统介绍了目标检测中的核心概念与评估指标。主要内容包括:1)交并比(IoU)、置信度及TP/FP/FN等基本概念的定义与计算方法;2)精确度、召回率、AP/mAP等关键指标的计算过程,重点阐述了COCO AP采用101点插值法和多IoU阈值平均的特点;3)对比分析了两类检测模型(Faster R-CNN与DETR)的输出处理机制,前者依赖NMS去除冗余预测,后者通过二分匹配直接输出非重叠检测结果。文章全面解析了目标检测模型评估的技术细节,为理解检测性能指标提供了系统指导。原创 2025-05-29 18:14:46 · 1825 阅读 · 0 评论 -
目标检测预测框置信度(Confidence Score)计算方式
目标检测模型中的预测框置信度是衡量检测结果可靠性的关键指标。不同模型计算置信度的方式各有特点:基于分类和目标性评分的模型(如Faster R-CNN、SSD)将目标存在概率与最高类别概率相乘;YOLO系列早期版本直接预测置信度,新版本则采用目标性分数与类别概率乘积;基于Transformer的DETR则直接输出包含"无对象"类别的概率分布。这些方法本质上都是评估预测框中存在特定类别对象的可能性,通过置信度阈值可有效平衡检测精度和召回率。原创 2025-05-29 10:51:22 · 2360 阅读 · 0 评论 -
扩张尺度张量填充方式
本文简单总结了两种特征张量的填充方式,欢迎大家一起交流~原创 2025-04-24 17:07:37 · 438 阅读 · 0 评论 -
RT-DETR训练好的pth导出为onnx模型报错记录
本文记录了一次导出训练模型.onnx的报错及处理方法。原创 2024-11-19 16:21:51 · 657 阅读 · 0 评论
分享