- 博客(549)
- 收藏
- 关注

原创 ******写在前言******
中午吃饭的时候,和一位公司的前辈聊起来知识繁碎的问题。我:总觉得自己从上学到工作,什么都只是接触了一点点,好多学过的东西也只是记在了小本本上,后来就找不到了。前辈:你可以写到自己的博客上。我:可是博客上精通某个领域的人太多了,和他们比起来,自己写的博客根本就不能看,也害怕自己万一写错了给别人造成误解。前辈:就算不是为了给别人看,自己当作一种记录的方式也挺好的;而且,每篇文章都有它的阅读人群,太高端...
2018-04-27 14:09:17
942
2
原创 solutions 模块 | 使用YOLO11监控我们锻炼
点击下方卡片,关注“小白玩转Python”公众号得益于技术的进步,追踪您的健身变得前所未有地容易。监控像俯卧撑、引体向上、深蹲和其他日常锻炼可以显著提高您的姿势,保持一致性,并降低受伤风险。有了Ultralytics YOLO11,锻炼监控达到了新的精确度和效率水平。通过分析您的锻炼习惯,监控使您能够评估表现,识别姿势错误,并确保稳步进步。这对于优化训练和预防伤害至关重要。例如,它可以跟踪您执行的...
2024-11-27 20:00:15
1095
1
原创 使用视觉语言模型(VLMs)进行目标检测
点击下方卡片,关注“小白玩转Python”公众号在过去,你必须自己训练模型,收集训练数据,但现在许多基础模型允许你在它们的基础上进行微调,以获得一个能够检测目标并与用户用自然语言互动的系统。有数百种模型和潜在应用场景,目标检测在这些场景中非常有用,尤其是随着小型语言模型的兴起,所以今天我们将尝试使用MLX上的Qwen2-VL-7B-Instruct-8bit。我们将使用MLX-VLM,这是由Pri...
2024-11-26 20:21:09
558
原创 提升篇 | 优化YOLOv8以加快推理速度
点击下方卡片,关注“小白玩转Python”公众号为了一项研究,我需要减少YOLOv8的推理时间。在这项研究中,我使用了自己的电脑而不是Google Colab。我的电脑有一个Intel i5(第12代)处理器,我的GPU是NVIDIA GeForce RTX 3050。这些信息很重要,因为我在一些方法中使用了CPU,在其他方法中使用了GPU。原始模型使用情况为了测试,我们使用了Ultralytic...
2024-11-25 20:26:53
2634
原创 使用YOLO和EasyOCR从视频文件中检测车牌
点击下方卡片,关注“小白玩转Python”公众号本文将介绍如何通过Python中的YOLO(ou Only Look Once)和EasyOCR(光学字符识别)技术来实现从视频文件中检测车牌。本技术依托于深度学习,以实现车牌的即时检测与识别。从视频文件中检测车牌先决条件在我们开始之前,请确保已安装以下Python包:pip install opencv-python ultralytics eas...
2024-11-24 20:00:20
397
原创 基于视觉 Transformer(ViT)进行图像分类
点击下方卡片,关注“小白玩转Python”公众号引言近年来,Transformer 架构彻底改变了自然语言处理(NLP)任务。视觉Transformer(ViT)将这一创新更进一步,将变换器架构适应于图像分类任务。本教程将指导您使用ViT对花卉图像进行分类。先决条件要跟随本教程,您应该具备以下基础知识:Python编程深度学习概念TensorFlow和Keras数据集概览在本教程中,我们将使用一个...
2024-11-20 20:46:35
2054
原创 利用 YOLO11做停车管理
点击下方卡片,关注“小白玩转Python”公众号对于繁忙的城市和公共场所来说,有效管理停车至关重要。传统方法常常跟不上需求,导致拥堵和挫败感。随着人工智能的进步,我们现在有了YOLO,这是一个强大的目标检测工具,可以用来改进停车管理系统。新的Ultralytics YOLO11模型更快、更精确,非常适合监控和管理停车位,它可以实时检测车辆并跟踪它们的移动。使用Ultralytics YOLO11的...
2024-11-19 20:05:35
923
原创 一文读懂 R-CNN 大家族
点击下方卡片,关注“小白玩转Python”公众号R-CNN(Regions with Convolutional Neural Networks)家族包括几种模型,它们通过利用区域提议网络和深度学习技术来改进目标检测。Faster R-CNN:作为R-CNN家族的扩展,Faster R-CNN使用区域提议网络(RPN)生成物体的潜在边界框,然后应用CNN进行分类和细化。Mask R-CNN:作为F...
2024-11-18 20:18:21
866
原创 深度学习1 — 人工神经元
点击下方卡片,关注“小白玩转Python”公众号人工神经元,通常在人工神经网络(ANNs)中被称为节点或单元,是模仿人脑中生物神经元行为的基本单元。这些人工神经元作为神经网络的基本构建块,使网络能够从数据中学习和做出决策。人工神经元的结构一个人工神经元通常由以下部分组成:1. 输入:每个神经元从多个源接收输入,例如其他神经元或直接从外部数据。这些输入通常是代表数据特征或属性的数值。2. 权重:每个...
2024-11-17 20:23:43
1021
原创 YOLOv8详解:从零开始理解目标检测
点击下方卡片,关注“小白玩转Python”公众号YOLOv8,即广泛使用的目标检测算法You Only Look Once(YOLO)的第八次迭代,以其速度、准确性和效率而闻名。然而,理解其架构可能具有挑战性,尤其是对于初学者。在本文中,我们将分解驱动YOLOv8的关键组件,从卷积神经网络和残差块等基本概念开始,逐步过渡到特征金字塔网络和CSPDarknet53等高级结构。最后,你将清楚地理解这些...
2024-11-16 20:01:37
1773
1
原创 使用零样本目标检测识别物体 | 附代码
点击下方卡片,关注“小白玩转Python”公众号在这篇文章中,我们将探讨如何使用Hugging Face的transformers库来使用零样本目标检测在冰箱图像中识别物体。这种方法允许我们在不需要针对这些物体进行特定预训练的情况下识别各种物品。以下是如何工作的代码的逐步指南。在这种情况下,我们使用Google的OWL-ViT模型,该模型非常适合目标检测任务。该模型作为管道加载,允许我们将其作为目...
2024-11-14 20:04:07
656
原创 从零开始构建DINO模型与PyTorch:自监督视觉transformer
点击下方卡片,关注“小白玩转Python”公众号DINO模型输出的狗冲刺无标签自蒸馏(DINO)《从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器》这边文章讲了如何构建可扩展学习器,这是我对视觉变换器系列的继续,其中我解释了最重要的架构及其从零开始的实现。自监督学习自监督学习(SSL)是一种机器学习类型,模型通过无需手动标记的示例来学习理解数据。相反,它从数据本身生成其监督信号。当...
2024-11-13 20:26:21
771
1
原创 从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器
点击下方卡片,关注“小白玩转Python”公众号到目前为止,我们已经详细转换了各种重要的ViT架构。在这个视觉transformer系列的这一部分,我将使用PyTorch从零开始构建掩模自编码器视觉transformer。不再拖延,让我们直接进入主题!掩模自编码器Mae是一种自监督学习方法,这意味着它没有预先标记的目标数据,而是在训练时利用输入数据。这种方法主要涉及遮蔽图像的75%的补丁。因此,在...
2024-11-12 20:01:06
617
原创 PDF提取:Pymupdf4llm新宠
点击下方卡片,关注“小白玩转Python”公众号嘿,喜欢数据的朋友们!想象一下:如果你正深陷于PDF文件中,试图为你的下一个AI项目提取信息。你可能会想,“Lama Pars,我来了!”但先别急,因为我有一个会让你大吃一惊的秘密武器。它叫做Pymupdf4llm,让我告诉你,它是一个游戏规则改变者。你可以把它想象成一个专为大型语言模型(LLMs)设计的终极PDF提取忍者。它就像一个超级瑞士军刀,可...
2024-11-11 20:02:48
1279
原创 在CIFAR10 数据集上微调 Vision Transformer (ViT)
点击下方卡片,关注“小白玩转Python”公众号在这篇文章中,我们将对预训练的 Vision Transformer (ViT) 模型进行微调,以适应 CIFAR10 数据集。在昨天的文章《在 CIFAR10 数据集上训练 Vision Transformer (ViT)》中,我们从头开始创建了一个 ViT 模型,并在 CIFAR10 数据集上进行了训练。然而,模型的准确率仅达到了67%,没有进行...
2024-11-10 20:16:25
832
原创 在 CIFAR10 数据集上训练 Vision Transformer (ViT)
点击下方卡片,关注“小白玩转Python”公众号在这篇简短的文章中,我将构建一个简单的 ViT 并将其训练在 CIFAR 数据集上。训练循环我们从训练 CIFAR 数据集上的模型的样板代码开始。我们选择批量大小为64,以在性能和 GPU 资源之间取得平衡。我们将使用 Adam 优化器,并将学习率设置为0.001。与 CNN 相比,ViT 收敛得更慢,所以我们可能需要更多的训练周期。此外,根据我的经...
2024-11-09 20:46:44
1017
原创 Gemini 可以进行目标检测了!
点击下方卡片,关注“小白玩转Python”公众号我们对Gemini印象深刻的多模态能力已经很熟悉了,特别是在涉及图像数据推理时——无论是涉及图像描述、OCR、分类,还是识别图像中的特定内容。与其开放模型对应物PaliGemma不同,Gemini模型并没有明确针对目标检测任务进行训练。这一事实促使我进行一些实验并撰写这篇博客。PaliGemma链接:https://ai.google.dev/...
2024-11-07 20:29:16
822
原创 YOLOv11理论基础 | 自定义目标检测
点击下方卡片,关注“小白玩转Python”公众号概述YOLO11 在 2024 年 9 月 27 日的 YOLO Vision 2024 活动中宣布:https://www.youtube.com/watch?v=rfI5vOo3-_A。YOLO11 是 Ultralytics YOLO 系列的最新版本,结合了尖端的准确性、速度和效率,用于目标检测、分割、分类、定向边界框和姿态估计。与 YOLOv...
2024-11-06 20:01:09
808
1
原创 优化计算机视觉和图像处理中的图像格式:OpenCV中的PNG、JPG和WEBP
点击下方卡片,关注“小白玩转Python”公众号在计算机视觉和图像处理应用中,选择正确的图像格式可以影响性能和质量。无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理,还是处理大型数据集,了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。让我们深入了解每种格式在图像处理方面的独特特性,并提供实际的代码示例,展示如何使用Python中的OpenCV加载和保存这些格式。目录P...
2024-11-06 20:01:09
589
原创 遥感顶刊 TRG'24 | AdaNAS:用于集合降雨预报的自适应后处理与自监督神经架构搜索...
点击下方卡片,关注“小白玩转Python”公众号论文信息题目:AdaNAS: Adaptively Postprocessing With Self-Supervised Neural Architecture Search for Ensemble Rainfall ForecastsAdaNAS:用于集合降雨预报的自适应后处理与自监督神经架构搜索作者:Yingpeng Wen, Weijian...
2024-11-01 20:00:35
891
原创 实时监控图像中的人脸识别
点击下方卡片,关注“小白玩转Python”公众号在当今的数字时代,人脸识别技术已经成为一个关键技术,它正在从安全到个性化体验等多个领域进行革新。从门禁控制到考勤系统,再到走失儿童的检测,人脸识别的应用非常广泛,涵盖了安全、教育和公共安全领域。然而,在不同的条件下准确识别人脸面临着一系列独特的挑战。在本指南中,我们将深入探讨人脸识别的复杂性,探索使用Python和先进的机器学习工具来确保强大的识别和...
2024-10-30 20:01:28
1035
原创 YOLOv11 架构改进 & 常见指令
点击下方卡片,关注“小白玩转Python”公众号今天我们介绍 YOLOv11,这个系列中的最新成员。YOLO 是一个在目标检测领域几乎无与伦比的算法,它产生了非常成功的结果。这个算法系列在 YOLOv5 之后由 Ultralytics 继续开发,并且每个新模型都带来了更好的性能。YOLOv11 是 Ultralytics 开发的最新 YOLO 模型。这个模型在执行实时目标检测时,继续平衡准确性和效...
2024-10-29 20:00:13
956
原创 遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测
点击下方卡片,关注“小白玩转Python”公众号论文信息题目:AODet: Aerial Object Detection Using Transformers for Foreground RegionsAODet: 基于 Transformers 的前景区域航空目标检测作者:Xiaoming Wang , Hao Chen , Xiangxiang Chu , and Peng Wang论文创...
2024-10-28 20:42:59
729
原创 使用YOLO检测眼睛闭合 | 设定警报
点击下方卡片,关注“小白玩转Python”公众号我们将探讨如何使用OpenCV和YOLO目标检测模型来检测视频中的眼睛闭合,并在眼睛闭合超过特定阈值时发出警告。我们还将讨论将这种方法应用于实时检测的可能性。眼睛闭合检测在许多现实世界的应用中都是一个重要的用例,从监控驾驶员疲劳到确保关键环境中的警觉性。先决条件在开始之前,请确保已安装以下库:OpenCV:用于视频处理和显示结果。Ultralytic...
2024-10-26 20:01:12
758
原创 5个基本的机器学习技术数据预处理(一) | 处理缺失数据
点击下方卡片,关注“小白玩转Python”公众号在几乎所有的组织中,信息质量的状态都处于同一低水平- Olson,《数据质量》数据无处不在!此外,它是许多现实世界问题的核心。作为数据科学家和机器学习工程师,我们大部分时间都在与数据打交道。重要的是我们要掌握它。本文介绍了全面的数据科学指南:从缺失数据到不平衡数据集的预处理成功之路。概述通过有效的预处理技术解锁数据的力量在机器学习中,从原始数据到一个...
2024-10-25 20:11:18
801
原创 基于yolov11的手语检测 | 附数据集+代码
点击下方卡片,关注“小白玩转Python”公众号YOLO11是Ultralytics YOLO系列实时目标检测器的最新迭代,它重新定义了尖端精度、速度和效率的可能性。在以往YOLO版本的令人印象深刻的进步基础上,YOLO11在架构和训练方法上引入了重大改进,使其成为广泛计算机视觉任务的多功能选择。此模型可以做很多很酷的事情,比如:寻找物体:它可以在图像中定位和识别不同的物体,如汽车、人或树木。分类...
2024-10-24 20:38:19
2480
2
原创 一份微调YOLOv11的小指南
点击下方卡片,关注“小白玩转Python”公众号引言在一个自动化和实时数据处理日益成为常态的时代,准确检测和识别车辆牌照的能力是非常宝贵的。从交通管理、收费到执法和停车解决方案,车牌识别系统在各种应用中都扮演着关键角色。在这篇博文中,我们将探讨如何微调强大的YOLOv11目标检测模型,以使用Roboflow准备的自定义数据集来检测汽车车牌。我们还将集成Gradio以创建一个交互式Web界面,用于实...
2024-10-23 20:26:12
1079
原创 目标跟踪器 | Kalman + FAST 预测物体运动 | 附代码
点击下方卡片,关注“小白玩转Python”公众号对于目标跟踪,有诸如FAST、SURF、SIFT和ORB等特征提取算法。在从目标物体提取特征后,可以尝试对每一帧的这些特征进行跟踪,通过这种方式,可以创建一个简单的目标跟踪器。但是,如何预测物体的运动呢?可能想知道1秒后目标物体将位于何处。仅使用特征提取算法是无法做到的,但不用担心,卡尔曼滤波器非常适合运动预测任务。在本文中,我将展示如何使用卡尔曼滤...
2024-10-21 20:12:27
417
原创 实现最先进的蒙版自编码器(MAE)
点击下方卡片,关注“小白玩转Python”公众号今天,我深入探讨视觉变换器之后计算机视觉领域最重要的突破之一:蒙版自编码器(MAE)。简要回顾一下它的工作原理:以下是工作步骤:图像被分割成块。这些块的一个子集被随机蒙版。只有可见的块被送入编码器(这很关键)。解码器接收编码器的压缩表示,并尝试使用可见和蒙版的块重建整个图像。仅在蒙版块上计算损失。导入einops:用于其“repeat”函数archi...
2024-10-20 20:33:52
973
原创 使用YOLO World进行高性能目标检测
点击下方卡片,关注“小白玩转Python”公众号介绍想象一下,家里有一个机器人助手。现在想象一下漫长一天后的混乱——衣服散落各处,玩具到处都是,各种物品都放错了地方。这个机器人如何识别和整理每一项物品,尤其是如果它以前从未见过这些物品中的一些?传统的目标检测器将难以完成这项任务。进入“YOLO World”,这是计算机视觉中一个革命性的新模型,承诺改变机器理解和与周围环境的互动方式。YOLO-Wo...
2024-10-18 20:22:48
1827
原创 Florence-2 with OpenVINO & FiftyOne: 图像分析中的现实世界应用
点击下方卡片,关注“小白玩转Python”公众号在本文中,我们将深入探讨一个实际的现实世界用例,结合两个强大工具的优势,以最大化Florence-2模型的效率和易用性。我们将首先使用OpenVINO将原始的PyTorch模型转换为优化的压缩格式,使其能够在仅使用CPU的机器上高效运行。为了进一步提高其实用性并解锁额外功能,我们将利用FiftyOne——一个用于探索和策划图像数据集的多功能工具——帮...
2024-10-17 20:06:28
1126
1
原创 【2024 】十大图像分割模型
点击下方卡片,关注“小白玩转Python”公众号图像分割是一门教会机器不是以像素,而是以物体、边界和等待被理解的故事来看待世界的艺术。图像分割是计算机视觉中的一个关键任务,它涉及将图像分割成多个部分,从而更容易分析图像内的不同物体或区域。近年来,为了在这一领域实现最先进的性能,开发了许多模型,每个模型都带来了独特的优势。下面,我们探讨了2024年的十大图像分割模型,详细说明了它们的工作原理、优点和...
2024-10-15 20:00:37
4776
原创 [YoloV9][模型优化][知识蒸馏] — 如何实现基于特征的知识蒸馏?
点击下方卡片,关注“小白玩转Python”公众号所有实现都参考了 yzd-v/FGD github 仓库,该仓库基于 mmdetection 深度学习框架。介绍和实现工作流程在这里,我们将从教师模型的颈部特征中提取知识,并以特征损失的形式将知识蒸馏到学生模型中。为了实现这一点,如果按照以下工作流程实施,理解起来会更容易。您需要加载教师模型。教师模型当然是在相同数据集上训练过的预训练模型。由于它是基...
2024-10-13 20:01:38
1082
2
原创 探索 YOLO11:更快、更智能、更高效
点击下方卡片,关注“小白玩转Python”公众号在人工智能这个不断进化的世界中,有一件事我们可以肯定:模型不断变得更好、更快、更智能。就在你以为 YOLO 系列已经达到顶峰时,Ultralytics 推出了最新升级——YOLO11。没错,不是 YOLOv11——他们通过去掉“v”变得简约了。这就像 YOLO 同时理了个发并得到了晋升。但在这个名字简化的背后,是性能的显著飞跃。YOLO11 通过显著...
2024-10-12 20:00:49
1450
原创 一个好用的小工具 | 将PDF转换为Markdown格式
点击下方卡片,关注“小白玩转Python”公众号我使用过多种在线工具将PDF文档转换为Markdown格式,我觉得最好用的是Marker(可以通过链接访问:https://github.com/VikParuchuri/marker)。除了基本的Markdown转换,它还可以格式化表格,将大多数方程式转换为LaTeX格式,提取并存储图片。以下是我如何使用Marker提取PDF内容并将其转换为有效的...
2024-10-11 20:07:42
3645
1
原创 自定义Yolov10和Ollama(Llama 3)增强OCR
点击下方卡片,关注“小白玩转Python”公众号最近,我大部分时间都在玩大型语言模型(LLMs),但我对计算机视觉的热爱从未真正消退。因此,当有机会将两者结合起来时,我迫不及待地想要深入研究。在Goodreads上扫描书的封面并将其标记为“已读”总是感觉像一种魔法,我忍不住想要为自己重现这种体验。通过结合自定义训练的YOLOv10模型和OCR技术,你可以获得巨大的准确性提升。但当你加入一个LLM(...
2024-10-10 20:01:01
1492
原创 使用YOLO11分割和高斯模糊创建人像效果
点击下方卡片,关注“小白玩转Python”公众号分割和高斯模糊后的图像本文通过结合最新的YOLO11实例分割模型和高斯模糊,为你的图片应用人像效果。我们将使用YOLO11将人物从背景中分割出来,并对除了主体之外的所有内容应用模糊效果。1. 安装Ultralytics库首先创建并激活一个Python虚拟环境来管理依赖项。如果你不熟悉虚拟环境,请查看这个教程:激活虚拟环境后,我们需要安装ultraly...
2024-10-09 20:01:53
832
原创 YOLO11 实例分割模型做行人分割
点击下方卡片,关注“小白玩转Python”公众号本文教程将一起学习如何利用 YOLO11 分割模型在图像中准确隔离和识别人物。YOLO11 实例分割模型在 Unsplash 图片上的结果引言实例分割是检测和隔离图像中单个对象的关键技术,YOLO11 是执行这项任务的最佳模型之一。在本文中,你将学习如何使用 YOLO11 分割模型有效地在图像中分割人物。我们将涵盖从设置 Python 环境和安装必要...
2024-10-08 20:24:28
915
原创 训练自定义数据集 YOLOv8 OBB - 定向边界框
点击下方卡片,关注“小白玩转Python”公众号YOLOv8 定向目标检测什么是定向边界框目标检测?“定向边界框目标检测”指的是在图像或视频中识别和定位对象的同时,还估计它们的方向。这种方法在处理有一定旋转或方向变化的对象时特别有用,例如汽车、飞机或文本。定向目标检测器的输出是一组旋转的边界框,这些框精确地包围图像中的对象,每个框都有类别标签和置信度分数。当您需要识别场景中感兴趣的对象,但不需要知...
2024-10-07 20:14:00
665
原创 将 YOLOv10 部署至 LiteRT:在 Android 上使用 Google AI Edge 进行目标检测
点击下方卡片,关注“小白玩转Python”公众号介绍在大型语言模型(LLMs)兴起之前,边缘 AI 是一个热门话题,这得益于其在设备上直接运行机器学习模型的显著能力。这并不是说这个话题已经失去了相关性;事实上,许多科技巨头现在正将注意力转向在移动平台上部署 LLMs。虽然我们今天不会讨论生成性 AI,但我们将重新审视经典的计算机视觉任务——目标检测。这篇博客提供了一个全面的教程,介绍如何将 Ult...
2024-10-06 20:00:24
1453
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人