
深度学习与CV
文章平均质量分 85
You Only Look Once
山山而川_R
主要自用 有不懂的可以去官网查询
展开
-
浅易理解:YoloV3 案例_05
TFRecord 是Google官方推荐的一种数据格式,是Google专门为TensorFlow设计的一种数据格式,利用这种方式存储数据可以使其与网络架构更适配。TFRecord是一种二进制文件,其能更好的利用内存,与csv,hdf5文件是类似的。TFRecord的文件的内容如下图所示:tf.train.bytes_list: 可以存储string 和byte两种数据类型。图像数据使用这种方式存储即可。原创 2024-03-20 17:09:39 · 732 阅读 · 0 评论 -
深度学习_微调_7
一种可能的方法是先找出100种常见的椅子,为每种椅子拍摄1,000张不同角度的图像,然后在收集到的图像数据集上训练一个分类模型。例如,虽然ImageNet数据集的图像大多跟椅子无关,但在该数据集上训练的模型可以抽取较通用的图像特征,从而能够帮助识别边缘、纹理、形状和物体组成等。总结起来,微调的原理是利用预训练模型中的已学知识作为初始状态,通过对新任务数据的训练,对模型参数进行针对性的更新和优化,从而使模型能够适应新的应用场景。将基于一个小数据集对在ImageNet数据集上训练好的ResNet模型进行微调。原创 2024-03-20 11:27:19 · 1467 阅读 · 0 评论 -
深度学习_ResNet_5
如果我们改变思路,用F(x) 来逼近 H(x)-x ,那么我们最终得到的输出就变为 F(x)+x(这里的加指的是对应位置上的元素相加,也就是element-wise addition),这里将直接从输入连接到输出的结构也称为shortcut,那整个结构就是残差块,ResNet的基础模块。ResNet的前两层跟之前介绍的GoogLeNet中的一样:在输出通道数为64、步幅为2的7×77×7卷积层后接步幅为2的3×33×3的最大池化层。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。原创 2024-03-18 11:49:10 · 1250 阅读 · 0 评论 -
浅易理解:非极大抑制NMS
非极大值抑制(Non-Maximum Suppression,简称NMS)是一种在计算机视觉和图像处理领域中广泛使用的后处理技术,特别是在目标检测任务中。它的主要目的是解决目标检测过程中出现的重复检测问题,即对于同一个物体,算法可能会预测出多个重叠或相似的边界框(bounding boxes)。排序:首先根据每个边界框的得分进行降序排序,选取得分最高的边界框作为保留的对象。抑制:对于排序后的边界框列表,对每一个框i,检查其与得分低于它的所有其他框j之间的重叠程度。原创 2024-03-15 11:53:33 · 1874 阅读 · 0 评论 -
浅易理解:YOLOv1
2015年YOLO团队提出了一种名为YOLO的新目标检测方法。以往的目标检测工作大多将分类器转用于执行检测任务。相比之下,YOLO团队将目标检测构建成一个回归问题,旨在从空间上分离的边界框及其相关的类别概率入手。YOLO采用单一神经网络,在一次评估中直接从完整图像预测边界框和类别概率。由于整个检测流程是一个单一的网络结构,因此能够直接针对检测性能进行端到端的优化。该统一架构拥有极其出色的运行速度。基础版YOLO模型能够实时处理图像,每秒处理速度达45帧。原创 2024-03-13 10:35:02 · 1309 阅读 · 0 评论 -
深度学习_GoogLeNet_4
GoogLeNet的名字不是GoogleNet,而是GoogLeNet,这是为了致敬LeNet。GoogLeNet和AlexNet/VGGNet这类依靠加深网络结构的深度的思想不完全一样。GoogLeNet在加深度的同时做了结构上的创新,引入了一个叫做Inception的结构来代替之前的卷积加激活的经典组件。GoogLeNet在ImageNet分类比赛上的Top-5错误率降低到了6.7%。原创 2024-03-13 01:20:11 · 1222 阅读 · 0 评论 -
浅易理解:卷积神经网络(CNN)
在人工智能领域中,人工神经元是对生物神经元进行模拟的概念模型,它是构建人工神经网络的基本单元。人工神经元的设计意图是模仿生物大脑中神经元处理信息的方式,即接收输入信号、对信号进行加权处理并产生输出响应的能力。一个典型的人工神经元通常包括以下组成部分:。原创 2024-03-12 16:23:42 · 3426 阅读 · 0 评论 -
深度学习_读取狗图片案例_k1
深度学习_读取狗图片案例。原创 2024-03-12 01:21:25 · 157 阅读 · 0 评论 -
深度学习_图像增强_6
图像增强(image augmentation)指通过剪切、旋转/反射/翻转变换、缩放变换、平移变换、尺度变换、对比度变换、噪声扰动、颜色变换等一种或多种组合数据增强变换的方式来增加数据集的大小。图像增强的意义是通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模,而且随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。接下来将图像的亮度随机变化为原图亮度的50%50%(即1−0.51−0.5)∼150%∼150%(即1+0.51+0.5)。原创 2024-03-12 00:36:47 · 581 阅读 · 0 评论 -
深度学习_VGG_3
2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了ILSVRC2014比赛分类项目的第二名,主要贡献是使用很小的卷积核(3×3)构建卷积神经网络结构,能够取得较好的识别精度,常用来提取图像特征的VGG-16和VGG-19。原创 2024-03-11 23:26:50 · 799 阅读 · 0 评论 -
深度学习_AlexNet_2
2012年,AlexNet横空出世,该模型的名字源于论文第一作者的姓名Alex Krizhevsky。AlexNet使用了8层卷积神经网络,以很大的优势赢得了ImageNet 2012图像识别挑战赛。它首次证明了学习到的特征可以超越手工设计的特征,从而一举打破计算机视觉研究的方向。原创 2024-03-11 23:14:05 · 1219 阅读 · 0 评论 -
深度学习_图像分类_1
ImageNet数据集是ILSVRC竞赛使用的是数据集,由斯坦福大学李飞飞教授主导,包含了超过1400万张全尺寸的有标记图片,大约有22000个类别的数据。ILSVRC全称ImageNet Large-Scale Visual Recognition Challenge,是视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。分类模型给图像分配多个标签,每个标签的概率值不同,如dog:95%,cat:4%,panda:1%,根据概率值的大小将该图片分类为dog,那就完成了图像分类的任务。原创 2024-03-11 23:03:05 · 742 阅读 · 0 评论