Task09：目标检测基础；图像风格迁移；图像分类案例

最新推荐文章于 2024-08-06 18:40:46 发布

Xavier学长

最新推荐文章于 2024-08-06 18:40:46 发布

阅读量263

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/zuyuhuo6777/article/details/104500518

本文介绍了目标检测的基础概念，并详细讲解了如何在图像中绘制边界框来定位目标物体，如猫和狗，通过matplotlib库实现边界框的可视化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、目标检测基础

9.3 目标检测和边界框¶

%matplotlib inline
from PIL import Image

import sys
sys.path.append('/home/kesci/input/')
import d2lzh1981 as d2l

# 展示用于目标检测的图
d2l.set_figsize()
img = Image.open('/home/kesci/input/img2083/img/catdog.jpg')
d2l.plt.imshow(img); # 加分号只显示图

9.3.1 边界框

# bbox是bounding box的缩写
dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493]

def bbox_to_rect(bbox, color):  # 本函数已保存在d2lzh_pytorch中方便以后使用
    # 将边界框(左上x, 左上y, 右下x, 右下y)格式转换成matplotlib格式：
    # ((左上x, 左上y), 宽, 高)
    return d2l.plt.Rectangle(
        xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1],
        fill=False, edgecolor=color, linewidth=2)

fig = d2l.plt.imshow(img)
fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Xavier学长

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

目标检测YOLO实战应用案例100讲-基于深度学习的水下图像增强及目标检测算法研究与应用

qq_36130719的博客

06-11

2558

随着海洋强国战略的提出，占地球表面积71%的海洋成为现阶段最热门的探索领域之一。海洋中蕴含着丰富的资源，但是水下可见度低、压力大且环境复杂，人类的下潜深度有限，限制了对海洋的探索与利用。水下机器人[1]可以潜入水下通过视觉系统判断周围的环境信息并获取水下目标的位置，因此被用来进行水下作业，广泛应用于水下目标捕获、石油开发、水下救援等领域。基于光视觉的水下目标检测作为水下机器人作业的关键技术，成为一个研究重点。水下目标检测的目的是定位和识别水下场景中的目标。陆地上的目标检测技术的。

计算机视觉、目标检测、视频分析的过去和未来：目标检测从入门到精通 ------ YOLOv8 到多模态大模型处理视觉基础任务

shiter编写程序的艺术

07-03

734

自注意力机制和注意力机制的区别就在于，注意力机制的查询和键是不同来源的，例如，在Encoder-Decoder模型中，键是Encoder中的元素，而查询是Decoder中的元素。在中译英模型中，查询是中文单词特征，而键则是英文单词特征。而自注意力机制的查询和键则都是来自于同一组的元素，例如，在Encoder-Decoder模型中，查询和键都是Encoder中的元素，即查询和键都是中文特征，相互之间做注意力汇聚。从剩余的预测框中选择一个与基准框的重叠面积最大的框，如果其重叠面积大于一定的阈值，则将其删除。

参与评论您还未登录，请先登录后发表或查看评论

Opencv实战5-实现提取目标框图像

灰太狼的小秘密

01-24

2213

一、基础知识 1.1 HSV颜色提取在图像处理中使用较多的是 HSV 颜色空间，它比 RGB 更接近人们对彩色的感知经验。非常直观地表达颜色的色调、鲜艳程度和明暗程度，方便进行颜色的对比。组成： Hue（色调、色相） Saturation（饱和度、色彩纯净度） Value（明度）圆柱体来表示 HSV 颜色空间，圆柱体的横截面可以看做是一个极坐标系，H 用极坐标的极角表示，S 用极坐标的极轴长度表示，V 用圆柱中轴的高度表示。 Hue 用角度度量，取值范围为0～360°，表示色彩信.

Python 根据生成的txt对多目标跟踪结果画框可视化显示

qq_51682716的博客

10-20

2714

draw_mot.py import os.path import numpy as np from sort_gt import sort_output import cv2 def draw_mot(video_id): txt_name = 'D:/project/code/result/' + video_id + '.txt' # txt文本内容 file_path_img = 'D:/project/datasets/trainData/Multi-object-track

数据可视化——读取并绘制txt中实验数据图

weixin_41905577的博客

03-03

1464

李沐动手学深度学习V2-目标检测边界框

flyingluohaipeng的博客

06-08

1630

根据坐标信息定义图像中狗和猫的边界框，图像中坐标的原点是图像的左上角，向右的方向为 𝑥 轴的正方向，向下的方向为 𝑦 轴的正方向。将边界框在图中画出，以检查其是否准确。画之前定义一个辅助函数bbox_to_rect（），它将边界框表示成matplotlib的边界框格式。 4. 小结......

【机器学习知识点】3. 目标检测任务中如何在图片上的目标位置绘制边界框

阿旭的博客

01-11

1539

【机器学习知识点】3. 目标检测任务中如何在图片上的目标位置绘制边界框

Task09：目标检测基础；图像风格迁移；图像分类案例1

邦戈邦戈栗子的博客

02-23

404

目标检测定位图像中目标的存在，并在该目标周围绘制一个边界框(bounding box)。这通常包括两个过程:预测目标的类型，然后在该目标周围绘制一个框。

深入探讨目标检测算法：从经典方法到前沿技术的全景分析与实战案例

Hellc007的博客

08-06

1384

自动驾驶中，早期的车道线检测和交通标志识别使用的是基于颜色和形状的传统方法，虽然效果有限，但为深度学习方法奠定了基础。：使用MMDetection框架，你可以快速实现一个基于YOLOv5的检测系统，并通过迁移学习适配到你的自定义数据集。：在移动端应用中，量化后的YOLOv5能够在资源受限的设备上实时运行，适用于智能家居和便携式设备中的目标检测任务。：Faster R-CNN广泛应用于人脸检测、车辆检测等领域，特别是在需要高精度的场景下，如智能监控和工业质检。库可以非常方便地实现。

目标检测YOLO实战应用案例100讲-高速铁路供电安全检测监测系统图像智能识别（中）

qq_36130719的博客

10-30

647

（3）激活层卷积网络的非线性表示能力可以通过激活层的激活函数来“激活”卷积层得到的特征，从而实现非线性映射的目的。激活层主要功能是在卷积层的输出结果嵌套激活函数，如ReLU函数、Tanh函数和Sigmoid函数等，从而使得网络具有非线性表示能力[124]。典型的激活函数图形如图2-4所示。Sigmoid激活函数如a）所示，其目的是将神经元输出结果映射至0和1中间进而实现二分类任务。由于其横坐标0附近的区域内梯度变化较大，因此可以用来对特定特征进行放大。

计算机视觉——bbox的格式简介

热门推荐

Williamcsj的博客

03-15

1万+

计算机视觉——bbox的格式简介一、Itwh二、xywh 前提知识：左上角为坐标原点一、Itwh 全程：(left，top，weight，height) 二、xywh 全程：(x，y，weight，height) x、y既可以指左上角的点也可以指中心点 coco数据集： [x,y,w,h]，分别表示的是左上角横坐标、左上角纵坐标、宽度、高度 yolo数据集： [x,y,w,h]，分别表示的是中心点横坐标、中心点纵坐标、宽度、高度 ...

动手学深度学习 - 9.3. 目标检测和边界框

程永强

06-22

1875

动手学深度学习 - 9.3. 目标检测和边界框动手学深度学习 - Dive into Deep Learning Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola https://zh.d2l.ai/ 9.3. 目标检测和边界框在图像分类任务里，我们假设图像里只有一个主体目标，并关注如何识别该目标的类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类

pytorch学习笔记（四十）：目标检测与锚框

逐梦er的博客

08-13

1万+

文章目录1.目标检测2. 边界框3.锚框3.1 生成多个锚框3.2 交并比3.3 标注训练集的锚框3.4 输出预测边界框 1.目标检测在图像分类任务里，我们假设图像里只有一个主体目标，并关注如何识别该目标的类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或物体检测。 目标检测在多个领域中被广泛使用。例如，在无人驾驶里，我们需要通过识别拍摄到的视频图像里的车辆、行人、道路

pytorch 学习笔记 part12 目标检测

kkx2218813的博客

02-25

570

目标检测和边界框 %matplotlib inline from PIL import Image import sys sys.path.append('/home/input/') import d2lzh1981 as d2l # 展示用于目标检测的图 d2l.set_figsize() img = Image.open('/home/input/img2083/img/catdog.jp...

计算机视觉（一）—— 目标检测和边界框

Mortal's blog

11-11

1万+

文章目录1. 什么是目标检测2. 目标检测大致思路2.1 边界框2.2 合理的边界框？2.2.1 某一种锚框的生成方法2.2.2 锚框的评定2.2.2 预测每个锚框中的物体2.2.2.1 预测物体类别2.2.2.1 训练集中的锚框参考链接 1. 什么是目标检测 在图像分类任务里，假设图像里只有一个主体目标，并关注如何识别该目标的类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的...

计算机视觉算法整理（一）：Faster RCNN，bounding box regression，IOU，GIOU

Bin 的专栏

12-07

5201

专门收录一下一些有趣的，计算机视觉中我想记录一下的算法，重点关注的是loss function，顺便说下相关算法。因为是收录，只为日后查看之需，有一些会借用一些资料，我会给出引用。 1、Faster RCNN 两阶段目标检测的代表作，可以说是开创了目标检测的一番局面。现在很多公司实际在商用的目标检测算法，依然很多是基于Faster RCNN的。虽然后来各种论文都号称吊打Faster RCNN，但是...

目标跟踪-VOT的Bounding Box的生成准则

u014410989的专栏

04-09

1937

目标跟踪-VOT的Bounding Box的生成准则介绍目标跟踪：在第一帧给定目标位置，在后续帧中预测目标的位置。为了方便表述，早期的跟踪算法都是坐标轴对齐的的矩形框。但随着跟踪精度的不断提升，数据集的难度在不断提升，在VOT2015时即提出使用旋转矩形框来作为标记。在VOT2016的时候提出自动的通过mask来生成旋转框的方法。 http://cmp.felk.cvut.cz/~vojir...

MAML图像分类

最新发布

03-14

### MAML算法在图像分类中的应用 MAML（Model-Agnostic Meta-Learning）是一种元学习框架，旨在快速适应新任务。其核心思想是通过优化模型参数，使得少量样本即可完成目标任务的学习[^2]。具体到图像分类领域，MAML 的目标是在训练阶段利用多个小型数据集的任务分布，使模型能够高效地迁移到新的未见过的分类任务上。 #### 实现过程 1. **初始化模型参数** 首先定义一个可微分的神经网络作为基础模型，并随机初始化其参数 $\theta$。该模型可以是一个卷积神经网络 (CNN)，适用于处理图像分类任务。 2. **采样任务集合** 在训练过程中，从一组预定义的小规模分类任务 $T_i$ 中采样若干子任务。这些任务通常由支持集和支持标签组成 $(S, y_S)$ 和查询集及其对应标签 $(Q, y_Q)$。 3. **内部更新（单步或多步梯度下降）** 对于每个任务 $T_i$，基于支持集执行一次或多次梯度下降操作以获得特定任务下的临时参数： \[ \theta'_i = \theta - \alpha \nabla_\theta L_{T_i}(f_\theta(S)) \] 这里，$\alpha$ 是学习率，$L_{T_i}$ 表示损失函数[^1]。 4. **外部更新（元梯度计算）** 使用查询集上的性能反馈调整全局参数 $\theta$，即： \[ \theta \leftarrow \theta - \beta \sum_i \nabla_\theta L_{T_i}(f_{\theta'_i}(Q)) \] 其中涉及二阶导数项用于捕捉不同任务间的关联性。 5. **测试阶段迁移能力验证** 当面对全新的图像分类场景时，只需依据上述机制对初始权重做有限次迭代便可迅速适配至最优解附近。 #### 应用案例分析 - **Few-Shot Learning 场景下的人脸识别** 利用 MAML 方法构建了一个能够在极低标注量条件下识别人类面孔身份差异的有效解决方案。实验表明，在仅提供一张正面照片的情况下也能达到较高精度水平。 - **细粒度物体类别辨别** 借助 MAML 技术开发针对鸟类品种鉴定的应用程序实例展示了如何克服传统监督式深度学习方法因缺乏充足标记而导致泛化效果差的问题。 ```python import torch from torch import nn, optim class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() self.layers = nn.Sequential( nn.Conv2d(3, 64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2), nn.Conv2d(64, 128, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2), nn.Flatten(), nn.Linear(128 * 7 * 7, 10) ) def forward(self, x): return self.layers(x) def maml_train_step(model, tasks, alpha, beta): meta_loss = [] for task in tasks: support_x, support_y = task['support'] query_x, query_y = task['query'] theta_prime = model.state_dict() # Inner loop update inner_optim = optim.SGD(model.parameters(), lr=alpha) preds = model(support_x) loss = F.cross_entropy(preds, support_y) inner_optim.zero_grad() loss.backward(create_graph=True) # For second-order gradients inner_optim.step() with torch.no_grad(): updated_model = type(model)(...) # Reinitialize same architecture updated_model.load_state_dict(theta_prime) for p_new, p_old in zip(updated_model.parameters(), model.parameters()): p_new.data.copy_(p_old.data - alpha * p_old.grad.data) # Outer loop update preparation q_preds = updated_model(query_x) q_loss = F.cross_entropy(q_preds, query_y) meta_loss.append(q_loss) total_meta_loss = sum(meta_loss) / len(tasks) outer_optim = optim.Adam(model.parameters(), lr=beta) outer_optim.zero_grad() total_meta_loss.backward() outer_optim.step() ```