
深度学习与计算机视觉精品
文章平均质量分 91
深度学习与计算机视觉精品专栏:有非常多优秀的AI算法作品,并且有独到的间解和优化原理,大家看了这个专栏,可以在原理上、实践上得到完美的结合,以后再也不怕领导问:为啥AI这样有效果、能涨点、可解释性了。这些算法精品,结合了实践,能让大家领会贯通,变成理论扎实,实践能力强的算法达人,配合实战专栏食用更佳
cv君
限时新年大礼包:所有专栏全部8折+送全部150篇文章+送3K人技术答疑群+本人答疑!!! 新年贺送时间:25年2月1日-3月1日(联系VX:zxx15277368495z)
cv君是人工智能专业的AI科班优秀毕业生,从18年搞算法,至今已七年,曾在Vivo任职AI算法工程师;曾在Intel获得过多次带高薪的奖,曾获CCF视觉算法赛冠军、Kaggle银牌、阿里世界人工智能大赛Top10、ICLM Top5,任职期间获公司:唯一S级员工;微软黑客松比赛二等奖;多篇论文专利擅长AI全栈领域算法,。
cv君是科研热爱者,从不写水文,感谢订阅,愿你在此获得学习和成长!
因为热爱,所以坚持去做! —cv君
展开
-
【YOLOv8十万长文优化】独家魔改优化技巧+附20余个源码手把手教程
【YOLOv8十万长文全解】v8 v9通用。独家魔改优化技巧+附20余个源码手把手教程; Hello,大家好,我是cv君,最近开始在空闲之余,经常更新文章啦!除目标检测、分类、分隔、姿态估计等任务外,还会涵盖图像增强领域,如超分辨率、画质增强、降噪、夜视增强、去雾去雨、ISP、海思高通成像ISP等、AI-ISP、还会有多模态、文本nlp领域、视觉语言大模型、lora、chatgpt等理论与实践文章更新,更新将变成一周2-3更,一个月争取10篇,重回创作巅峰原创 2024-08-01 21:07:10 · 28510 阅读 · 6 评论 -
实时 摔倒识别 /运动分析/打架等异常行为识别/控制手势识别等所有行为识别全家桶 原理 + 代码 + 数据+ 模型 开源!
文章目录一、 基本过程和思想二 、视频理解还有哪些优秀框架三、效果体验~使用手势:python run_gesture_recognition.py健身_跟踪器:卡路里计算三、训练自己数据集步骤然后,打开这个网址:点击一下start new project但是官方的制作方法是有着严重bug的~我们该怎么做呢!原代码解读大家好,我是cv君,很多大创,比赛,项目,工程,科研,学术的炼丹术士问我上述这些识别,该怎么做,怎么选择框架,今天可以和大家分析一下一些方案:用单帧目标检测做的话,前后语义相关性很差(也有原创 2021-03-02 15:28:37 · 62971 阅读 · 313 评论 -
【项目实战】基于Yolov5 火灾浓烟检测与天池免费算力的教学篇
文章目录免费算力,白嫖党顶级薅羊毛!一 阿里天池的使用篇二 开启我们在天池服务器的第一个项目: 火灾浓烟与吸烟检测2.1 演示2.2 介绍三 模型训练四 天池端训练五 总结与技巧六 总结免费算力,白嫖党顶级薅羊毛!愁笔记本差,又买不起台式机显卡的同学,请注意啦!今天cv调包侠分享一下自己这几天开始使用的阿里天池的免费GPU服务器,以及这篇文章介绍如何在天池的tesla p100 16gb显存的服务器上训练自己的深度学习视觉模型~我们以火灾浓烟检测为例子。首先,大家可以看我Yolov5 吸烟检测文章与原创 2020-10-04 12:22:11 · 58632 阅读 · 118 评论 -
最强端到端文本识别模型 Mask TextSpotter v3 来了!
文章目录简述Mask TextSpotter v3整体流程实验结果总结与思考cv侠的个人公众号helllo 大家好,我是cver,今天给大家推荐Ocr 算法~简述场景文本的识别可以用文本检测+文本识别两个过程来做,近年来端到端的场景文本识别(即Text Spotting)越来越引起学术界的重视,而华中科技大学白翔老师组的 Mask TextSpotter v1、v2 一直是该领域的代表性工作。近日 Mask TextSpotter v3 发布,代码已开源,论文 Mask TextSpotter原创 2021-01-11 19:50:52 · 5729 阅读 · 0 评论 -
视觉识别入门之人脸识别——基于FACENET的高精度人脸识别
视觉识别入门之人脸识别————基于FACENET的高精度人脸识别一:项目展示:-这是实时视频读取的展示,是可以读单张图片,或者本地视频流,抑或是实时人脸检测与分类的,至于我为什么不展示我的自拍,主要原因是因为太丑了hhhh本文中我吧我暂且把我的模型称作为:孩子,因为机器学习,深度学习,实际是一个拟人的过程,通俗的说,就是我们的小时候,什么都不会,妈妈一个一个教你认字,久而久之,你就认识...原创 2020-04-09 17:36:29 · 25693 阅读 · 49 评论 -
cv君独家视角 | AI内幕系列二十七:最新Mamba神经网络架构:从零构建与实战教学
Mamba 作为一种创新的序列建模框架,通过选择性状态空间和线性时间复杂性的设计,为长序列任务提供了一种高效且灵活的解决方案。本文通过详细的代码实现和理论分析,展示了 Mamba 的核心思想和技术细节。原创 2025-02-06 10:17:33 · 2004 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列一:让AI学相机对焦: Learning to AutoFocus
实际上,这个论文开创了比较新颖的思路,并使用优秀的方法解决一些实际问题,尤其是在低帧率下对焦,提供了很大的帮助,基于纯反差爬山的方法已经难以在低帧率(弱光下)得到很快的速度了;但这个方法除了上述提到的问题外,想要落地,还需要解决两大难题,首先就是泛化问题上,由于是基于图像分类base方案的,而且还不单是分类,比普通分类难度高了一个档次,要想做好,需要收集数十万的数据对序列,还需要涵盖各式各样的场景图,单步或多步骤下的准确率,要达到99.x左右,不然难以落地超越激光+caf或pdaf+caf方案;原创 2024-05-28 10:48:49 · 30067 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十四:【手机、相机防抖大揭秘】数字防抖、鸡头防抖、光学防抖、AI防抖等(附源码+长期更新)
【手机、相机防抖大揭秘】数字防抖、鸡头防抖、光学防抖、AI防抖等(附源码+长期更新)原创 2024-08-08 20:55:58 · 26437 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十七:视觉状态空间模型(VMamba)的解读
在计算机视觉领域,设计计算高效的网络架构一直是研究的热点。今天,我想和大家分享一篇发表在 NIPS 2024 上的论文——VMamba:Visual State Space Model,这篇论文提出了一种新的视觉骨干网络,具有线性时间复杂度,展现了在多种视觉感知任务中的出色表现。原创 2025-02-02 21:31:13 · 1857 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列六:Instruct-IPT方法实现去雨雪去雾等去噪去模糊功能
近年来,有一种叫做Transformer的技术在图像处理领域非常火,它在很多任务上都表现得很棒,比如给图片分类、找出图片里的目标或者把图片分成不同的部分。但是,这些Transformer模型通常只能做一件事,这对于我们想要同时处理多个问题时就不太方便了。为了解决这个问题,一些研究人员提出了一种叫做All-in-One的模型,这种模型可以同时处理多个图像恢复任务。但是,这些模型在处理范围和效果上都还有限制。比如,它们可能在处理一些相关性较高的任务时表现不错,但一旦遇到完全不同的任务,效果就不行了。原创 2024-10-23 17:00:00 · 1808 阅读 · 2 评论 -
cv君独家视角 | AI内幕系列八:NeRD-Rain(双向多尺度的Transformer模型)新方法实现图像去雨
目前大多数基于Transformer的方法都只关注单一尺度的雨迹特征,而要成功去除图像中的雨滴,理解雨线在不同尺度上的表现非常关键。,因此论文作者提出了一种全新的多尺度Transformer模型,它能同时捕捉到不同尺度下有助于图像恢复的特征。这种方法有助于重建出更高质量的无雨图像。为了深入挖掘雨线在空间上的变化并找到它们的共同特征,论文作者在模型设计中融合了基于像素位置的隐式神经表征,这有助于模型学习如何去除雨水并提高在复杂环境下的稳定性。原创 2024-10-24 18:30:55 · 2362 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十五:全新的病理图像多类分割方法:PathMamba
论文提出了一种新颖的弱监督学习方法,仅使用图像级别的标签,通过多实例多标签学(MIML)和对比度掩码块(CMB)来探索组织病理学图像的像素级和区域级标准特征。该方法能够自适应地捕捉图像中的像素级特征,并利用深度对比学习损失更好地利用未标注的信息。实验结果表明,该框架在临床应用中具有有效的注释病理图像的潜力。原创 2025-01-06 19:15:18 · 2133 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列四:红外与可见光图像融合新突破:DAF-Net双分支特征融合网络
本文介绍的DAF-Net模型通过加入一种叫做MK-MMD的技术,在基础编码器中实现了全局特征的对齐,同时保留了不同模态的细节特征。实验结果显示,DAF-Net在多个数据集上表现出色,具有很好的融合效果和视觉质量。原创 2024-09-26 17:08:09 · 2435 阅读 · 3 评论 -
cv君独家视角 | AI内幕系列十:PlainUSR框架:加速卷积网络的高效SR方法
图像超分辨率(SR)旨在从大量的低分辨率退化中恢复高分辨率图像的方法。随着深度学习技术的发展,基于卷积神经网络(ConvNet)的SR方法取得了显著的进展。然而,这些方法在提高图像质量的同时,往往伴随着计算成本的增加,这限制了它们在实时应用中的实用性。最近,一篇名为《PlainUSR: Chasing Faster ConvNet for EfficientSuper-Resolution》的论文,提出了一种新的框架,旨在提高SR的速度和效率,同时保持图像质量。原创 2024-11-20 18:38:26 · 2081 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十二:利用raw图像实现真实场景的超分辨率的技术
总之,该方法提出了一种新的数据生成流程和双CNN架构,通过模拟数字相机成像过程和利用raw图像的辐射信息,有效地提高了真实场景下图像超分辨率的性能,并展示了raw数据在图像处理中的优越性。原创 2024-12-06 12:08:58 · 1881 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列七:EfficientViT模型:基于多尺度线性注意力模块,实现高效的高分辨率密集预测
在头部设计方面,它使用了P2、P3和P4,它们分别代表第二、第三和第四阶段的输出结果,形成了一个特征图的金字塔结构。简而言之,EfficientViT的骨架结构是按常规设计的,通过逐渐减小特征图尺寸和增加通道数来构建,而在头部设计中,它通过构建特征金字塔并融合不同阶段的特征图,以及使用简单的MBConv块和输出层来完成预测和上采样。总的来说,EfficientViT模型通过这些精心设计的技术,能够在保持计算效率的同时,有效地处理高分辨率图像,捕捉到图像的全局和局部信息,从而在各种密集预测任务中表现出色。原创 2024-10-24 16:33:06 · 1926 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十六:一文读懂 NeurIPS 条件卷积模块 CondConv:让模型涨点的秘密武器(附源码实践)
在深度学习的浪潮中,卷积神经网络(CNN)一直是图像处理领域的中流砥柱。然而,传统的卷积操作采用静态共享的卷积核,对不同输入样本“一视同仁”,这显然无法满足复杂多变的实际需求。今天,就带大家深入了解一种打破这一局限的创新技术 —— 条件卷积模块 CondConv,看看它是如何让模型性能实现飞跃的。原创 2025-02-02 19:40:25 · 1848 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十一:DP双像素sensor相关的AI算法全集:深度估计、图像去模糊去雨去雾恢复、图像重建、自动对焦
双像素是成像系统的感光元器件中单帧同时生成的图像:通过双像素可以实现:深度估计、图像去模糊去雨去雾恢复、图像重建成像原理来源如上,也有遮罩等方式的pd生成,如图双像素视图可以看到光圈的不同一半,这提供了一个深度提示。然而,由于基本的模糊性,如果相机的焦距(或光圈大小或焦距)发生变化,不同的场景可能会产生相同的双像素图像。在(a)中,具有焦距g1的相机在距离Z1处成像聚焦的蓝色点和离焦的橙色点。通过光圈左半部分折射的光(深蓝色和橙色光线)到达每个双像素的右半部分,反之亦然。这导致了一个双像素图像,其中失焦橙原创 2024-11-21 11:48:53 · 2772 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列十三:图像超分辨率技术新进展:混合注意力聚合变换器HAAT
在计算机视觉领域,单图像超分辨率(SISR)技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。特别是,SwinIR利用Swin Transformer取得了显著的改进,而混合注意力变换器(HAT)通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力,也产生了最先进的结果。HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性,尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域,导致感受野受限并且无法充分利用原始图像的特征信息。原创 2024-12-07 12:54:55 · 2062 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列九:视频修复技术和实时在线处理
视频修复技术的目标是填补视频中的缺失部分,使视频内容连贯合理。这项技术在对象移除、视频修复和视频补全等领域有着广泛的应用。传统方法通常需要处理整个视频,导致处理速度慢,难以满足实时处理的需求。实验使用了三种基于Transformer的视频修复模型,并在两个广泛使用的视频修复数据集上进行。结果显示,新框架在保持实时处理速度的同时,减少了质量损失。此外,通过消融实验评估了模型中各个组件的重要性,结果表明双模型协作和记忆机制对提高帧率和质量都有积极作用。原创 2024-11-20 17:22:49 · 2815 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列三:用扩散模型(Diffusion Model)生成新的训练数据的几种方法
扩散模型(Diffusion Model)是一种生成模型,用于生成新的数据样本。扩散模型的工作原理是迭代地向图像添加噪声,然后训练神经网络来学习噪声并去除噪声来还原原始图像。以下是扩散模型生成训练数据的步骤:初始化:模型以一个简单的数据分布开始,比如高斯分布,作为基础噪声。前向扩散过程:模型通过在数据中引入噪声,逐步将数据从其原始分布转变为一个复杂的噪声分布。这个过程模拟了物理扩散过程,逐渐掩盖数据的真实特征。生成训练数据:在前向扩散的每一步中,模型都学习如何记录数据从原始状态到噪声状态的转换。原创 2024-09-26 16:00:46 · 3370 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列五:深度学习在ISP中的的研究与进展
图像信号处理器(ISP)是数码相机中的关键组件,负责将原始图像数据转换为高质量的数字图像。传统的ISP流程依赖于硬件实现,包括去马赛克、去噪和白平衡等多个步骤,但这些步骤往往会导致信息损失和累积误差。近年来,深度学习技术,尤其是卷积神经网络(CNN),因其在图像处理中的卓越性能,被提出作为替代传统ISP流程的解决方案。本文章调查了最近的相关论文的研究进展,并对它们进行了更深入的分析和比较,探索了一些基于深度学习的 ISP 管道在计算效率和处理时间方面的改进策略。isp介绍图。原创 2024-10-23 10:20:00 · 1176 阅读 · 0 评论 -
【全面】人工智能技术栈与学习路线:机器学习 深度学习 视觉 NLP 推荐系统
文章目录一 概述(本文原创)二 人工智能编程语言/数据结构与算法三 人工智能基础原理四 智能信息获取(简称爬虫) 与数据分析1、发起请求3、解析内容4、保存数据二、Requests库介绍2.1基本介绍requests的基本使用流程三、selenium四:效率问题五:资源浪费六:能被识别七、scrapy框架八、Bs4整体使用步骤九、字段匹配方案十:数据存储与队列任务(MongoDB与Rabbitmq)十一、总结requests vs Scrapy两个方法看情况用相同点五 统计学原理/离散数学/概率论与数理统计原创 2020-08-19 19:37:40 · 19334 阅读 · 79 评论 -
基于视频/摄像头的简单行为动作识别模型的训练步骤
基于视频序列对于各种动作的检测方法即对视频中不同行为动作做分类识别神经网络使用的是这两个月开源的实时动作序列强分类神经网络:Real Time Sensenet它是对视频中的动作序列作强分类的网络,可以实时检测分类,即在一段时间内将帧间图像组合成一个序列,送到网络中进行分类,它无需大量的标注, 同时解决了行为动作在时间上下文的问题本文虽然是关于视频(摄像头)中简单动作的分类,但是该开源模型其实可以应用在各种人体姿势分类识别如手语识别、摔倒识别、运动分析等,即但凡关于动作的都可以才用这个方案来训练原创 2022-04-04 19:56:19 · 20441 阅读 · 20 评论 -
【反内卷】开创全新AI多模态任务一视听分割:附原理、代码实践、优化教程(一)
最新顶会开源,有趣度满分!视听分割是本周ECCV定会提出的全新任务,旨在:找出画面中哪个位置正在发出声音,这是一份多模态工作,结合了视觉和语音。原创 2022-08-09 20:30:42 · 22728 阅读 · 0 评论 -
【原理+实战】AI所有领域SOTA综述 (一)语音识别
文章目录前言语音识别原理信号处理,声学特征提取识别字符,组成文本声学模型语言模型词汇模型语音声学特征提取:MFCC和LogFBank算法的原理实战一 ASR语音识别模型系统的流程基于HTTP协议的API接口客户端未来实战二 调百度和科大讯飞API实战三 离线语音识别 Vosk前言首先,cv君下血本费时整理了AI在音视频领域的大量的方向,形成本文综述,从原理到底层算法,到上层应用,统统透析~本系列由于综述文章过长的原因,所以分开写了。文章附带大量的算法原理+代码实现教学,欢迎关注,一起AI。语音识别原原创 2021-04-01 21:36:23 · 5749 阅读 · 9 评论 -
【手把手反内卷】开创全新AI多模态任务一视听分割:代码实践、优化教程(二)
代码实战,有手就行,反内卷,最新多模态原创 2022-08-09 21:15:52 · 20899 阅读 · 12 评论 -
【一文全解图像超分】附数十个算法及独家源码+手把手教学及优化攻略!
【一文全解图像超分】附数十个算法及独家源码+手把手教学及优化攻略!超分有图像超分、视频超分,两者有一定区别,主要在多帧对齐上,后续我们介绍;有盲超分和已知退化超分;根据自己的实际任务来选择如何优化算法。最近经常更新文章啦原创 2024-06-21 15:49:50 · 26863 阅读 · 3 评论 -
《最新开源 随插即用》SAM 自增强注意力深度解读与实践(附代码及分析)
《最新开源 随插即用》本文提出了自增强注意机制,这是一种新的方法,用于正则化网络,以关注样本和类之间共享的关键区域。原创 2022-08-04 17:20:01 · 23259 阅读 · 6 评论 -
【含泪提速!】一文全解相似度算法、跟踪算法在各个AI场景的应用(附代码)
大家是否为深度学习算法速度感到困扰?本次cv君倾力分享一个优秀的方法,通过相似度+跟踪方案优化速度问题,并提高了检测、分割算法稳定性,附带代码,一起肝起来吧~原创 2022-08-31 18:15:00 · 18899 阅读 · 4 评论 -
《模型轻量化-剪枝蒸馏量化系列》YOLOv5无损剪枝(附源码)
无损剪枝模型到几百kb~原创 2022-06-07 22:06:56 · 35709 阅读 · 58 评论 -
cv君独家视角 | AI内幕系列二:LORA微调,让大模型更平易近人
LORA 在ICLR2022中提出,是利用低秩适配(low-rankadaptation)的方法,可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。由于 GPU 内存的限制,在训练过程中更新模型权重成本高昂。例如,假设我们有一个 7B 参数的语言模型,用一个权重矩阵 W 表示。在反向传播期间,模型需要学习一个 ΔW 矩阵,旨在更新原始权重,让损失函数值最小。原创 2024-05-29 20:55:27 · 26932 阅读 · 0 评论 -
保姆级深度学习环境搭建(亲测避坑)
踩坑结束,大家可以躺平了原创 2022-07-04 16:25:48 · 16095 阅读 · 0 评论 -
【开盖即食】多种算法实现画面动静判断(附源码)
【开盖即食】三种算法实现画面动静判断(附源码)大家好,我是cv君,今天想跟大家分享一下,如何实现画面动静判断、判断画面或者物体是否在运动或者是比较静止,简单使用计算机视觉传统方法实现,AI的后续带给大家。我们提供三种方案:1、背景消除法;2、光流追踪法;3、相似度、清晰度变化法;代码开盖即食,拿来可用,请品尝~原创 2024-08-21 20:24:42 · 15246 阅读 · 0 评论 -
「AI模型瘦身术」——知识蒸馏技术综述+手把手教学蒸馏
回顾近年来,知识蒸馏(Knowledge Distillation)方法在深度学习领域中备受关注,它是一种模型压缩技术,旨在将一个复杂的模型(通常被称为教师模型)的知识转移到一个简化的模型(通常被称为学生模型)中,从而使学生模型能够在保持性能的同时具有更小的模型尺寸和计算成本。: 最常见的知识蒸馏方法之一是使用教师模型和学生模型之间的监督信号。教师模型通常是一个大型、复杂的模型,而学生模型则是一个较小、简化的模型。原创 2024-05-16 11:38:49 · 27201 阅读 · 0 评论 -
cv君独家视角 | AI内幕系列二十:距离你解决小样本/少数据难题,只差这篇文章
文章目录什么是小样本学习?小样本学习变体Zero-Shot Learning (ZSL)One-Shot和Few-Shot小样本学习方法数据级方法参数级方法Few-Show目标检测YOLOMAML小样本解决方法进阶总结如今,在使用数十亿张图像来解决特定任务方面,计算机可以做到超过人类。尽管如此,在现实世界中,很少能构建或找到包含这么多样本的数据集。我们如何克服这个问题? 在计算机视觉领域,我们可以使用数据增强 (DA),或者收集和标记额外的数据。DA 是一个强大的技术,可能是解决方案的重要组成部分。标原创 2021-06-26 23:06:52 · 13733 阅读 · 0 评论 -
【附源码】基于OpenCV的Python人脸识别
大家好,我是cv君,近期朋友的作品,由我来分享给大家,人脸识别的,顺便还附带了比较完整的一些功能,还有UI界面,可拓展性高,欢迎收藏~(遍历目录下所有照片依次识别 视频随时标注)一、功能概览可以实现在摄像头下实时的人脸识别、检测、框选功能原理是将摄像头下的图像人脸和存放照片的目录下的人脸依次进行对比 调用百度的API人脸识别接口 返回相似度的值进行识别识别成功和失败均有提示 成功时能将对应的信息写入到识别记录中 并终止程序 当所有照片对比后均失败则提示失败 终止程序窗口利用tkinte原创 2021-08-10 23:35:10 · 32358 阅读 · 17 评论 -
【cv君个人整理学习路线】视觉算法从入门到进阶
大家好,我是cv君,今天文章简短,不说废话,把有用的东西推给大家;以下是我找了许久的比较精彩的,适合初学者到高深进阶的多门课程,包括python,cv,深度学习等,防止过多人阅读本文,造成卷的现象,本文近期会隐藏,可以收藏保存。先来看一下你学完这些能做什么?图像处理;图像均衡化;dl视觉算法;不出三个月,你就可以做出来全部;更重要地是,你可以做得更牛,不只是调包;新手阶段:python 基础 一周:要求会p...原创 2021-08-10 00:11:31 · 26826 阅读 · 47 评论 -
【用AI打击犯罪】高质量实际监控视频异常检测(免费下载:抢劫,行窃,偷窃,射击,袭击,打架,纵火,爆炸,逮捕,车祸等)
描述我们构建了一个新的大规模数据集,称为UCF-Crime,以评估我们的方法。它由长时间未修剪的监控视频组成,涵盖了13个现实世界的异常情况,包括虐待,逮捕,纵火,殴打,道路事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。选择这些异常是因为它们对公共安全有重大影响。下面是每个异常事件的简短描述。滥用:此事件包含的视频显示了对儿童,老人,动物和妇女的不良,残酷或暴力行为。入室行窃:此事件包含的视频向人们展示了盗窃意图进入建筑物或房屋的人员(盗贼)。它不包括对人民使用武力。抢劫:此.原创 2021-04-23 13:32:38 · 8295 阅读 · 26 评论 -
高效率OCR场景文字图片合成工具发布!
OCR,光学字符识别(OPTICAL CHARACTER RECOGNITION),作为计算机视觉领域的经典问题之一它指对图像中的文字进行检测识别(包括文字检测+文字识别),并获取文本的结果。常见于拍照检查、文档识别、证照票据识别、车牌识别、自然场景下的文本定位识别等,相关技术在数字时代得到了广泛的应用。如下图是OCR识别结果:作为计算机视觉领域的OCR识别在训练的时候当然也会需要大量的图片数据来供神经网络的学习,一般需要数以千万计的图片才能训练一个文字识别系统,才能达到识别文字的目的。但是如果采用原创 2021-04-03 10:21:56 · 7374 阅读 · 15 评论