yolo v3实时检测视频

该博客展示了如何运用YOLOv3模型进行实时视频物体检测。通过加载预训练权重,配置文件和类别标签,对视频帧进行处理,筛选出高置信度的检测结果,并用OpenCV在图像上画出边界框。整个过程演示了如何整合这些组件进行目标检测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

看图说话

import numpy as np
import cv2
import os
import time


def video_demo():
    # 加载已经训练好的模型路径,可以是绝对路径或者相对路径
    weightsPath = "yolov3.weights"
    configPath = "yolov3.cfg"
    labelsPath = "coco.names"
    # 初始化一些参数
    LABELS = open(labelsPath).read().strip().split("\n")  # 物体类别
    COLORS = np.random.randint(0, 255, size=(len(LABELS), 3), dtype="uint8")  # 颜色
    boxes = []
    confidences = []
    classIDs = []
    net = cv2.dnn.readNetFromDarknet(configPath, weightsPath)
    # 读入待检测的图像
    # 0是代表摄像头编号,只有一个的话默认为0
    MP4='test.MP4'
    capture = cv2.VideoCapture(MP4)
    while (True):
        ref, image = capture.read()
        (H, W) = image.shape[:2]
        # 得到 YOLO需要的输出层
        ln = net.getLayerNames()
        ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()]
        # 从输入图像构造一个blob,然后通过加载的模型,给我们提供边界框和相关概率
        blob = cv2.dnn.blobFromImage(image, 1 / 255.0, (416, 416), swapRB=True, crop=False)
        net.setInput(blob)
        layerOutputs = net.forward(ln)
        # 在每层输出上循环
        for output in layerOutputs:
            # 对每个检测进行循环
            for detection in output:
                scores = detection[5:]
                classID = np.argmax(scores)
                confidence = scores[classID]
                # 过滤掉那些置信度较小的检测结果
                if confidence > 0.5:
                    # 框后接框的宽度和高度
                    box = detection[0:4] * np.array([W, H, W, H])
                    (centerX, centerY, width, height) = box.astype("int")
                    # 边框的左上角
                    x = int(centerX - (width / 2))
                    y = int(centerY - (height / 2))
                    # 更新检测出来的框
                    boxes.append([x, y, int(width), int(height)])
                    confidences.append(float(confidence))
                    classIDs.append(classID)
        # 极大值抑制
        idxs = cv2.dnn.NMSBoxes(boxes, confidences, 0.2, 0.3)
        if len(idxs) > 0:
            for i in idxs.flatten():
                (x, y) = (boxes[i][0], boxes[i][1])
                (w, h) = (boxes[i][2], boxes[i][3])
                # 在原图上绘制边框和类别
                color = [int(c) for c in COLORS[classIDs[i]]]
                cv2.rectangle(image, (x, y), (x + w, y + h), color, 2)
                text = "{}: {:.4f}".format(LABELS[classIDs[i]], confidences[i])
                cv2.putText(image, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, color, 2)
        cv2.imshow("Image", image)
        # 等待30ms显示图像,若过程中按“ESC”退出
        c = cv2.waitKey(30) & 0xff
        if c == 27:
            capture.release()
            break


video_demo()

项目目录
在这里插入图片描述
放张效果图
在这里插入图片描述

资源为视频检测算法代码包括算法的模型,算法实现的原理是:首先在视频检测跟踪之前,对所有目标已经完成检测,那么当第一帧进来时,以检测到的目标初始化并创建新的跟踪器,标注ID,输出行人图片,输出一组向量,通过比对两个向量之间的距离,来判断两副输入图片是否是同一个行人。在后面帧进来时,先到卡尔曼滤波器中得到由前面帧box产生的状态预测和协方差预测,并且使用确信度较高的跟踪结果进行预测结果的修正。求跟踪器所有目标状态与本帧检测的box的IOU,通过匈牙利算法寻找二分图的最大匹配,在多目标检测跟踪问题中为寻找前后两帧的若干目标的匹配最优解,得到IOU最大的唯一匹配,在去掉匹配值小于iou_threshold的匹配对。 用本帧中匹配到的目标检测box去更新卡尔曼跟踪器,计算卡尔曼增益,状态更新和协方差更新。并将状态更新值输出,作为本帧的跟踪box,再对于本帧中没有匹配到的目标重新初始化跟踪器。 yolo v3首先通过特征提取网络对输入图像提取特征,得到一定size的feature map,通过尺寸聚类确定anchor box。对每个bounding box网络预测4个坐标偏移。如果feature map某一单元偏移图片左上角坐标,bounding box预选框尺寸为,即anchor尺寸,那么生成对预测坐标为,此为feature map层级.而为真值在feature map上的映射,通过预测偏移使得与一致。类别预测方面为多标签分类,采用多个scale融合的方式做预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VisionX Lab

你的鼓励将是我更新的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值