
计算机视觉实战 | 文档详细,开放源码

文章平均质量分 90
知乎上收到了太多人给我的私信,想找可以具体操作的机器视觉项目,回复的时候总是零零散散,我经过大半年的收集整理,现完成此专栏。例如手写字识别、人脸识别、表情识别、图像分割、表面缺陷检测、车道线检测、车辆可通行区域检测等项目,提供完整指导文档和开源代码。
优惠券已抵扣
余额抵扣
还需支付
¥69.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
Charmve
现就职于国内某top自动驾驶独角兽公司,量产自动驾驶系统架构师,专注于自动驾驶感知模块研发,有多年量产经验。同时,也是迈微AI研习社公众号主理人、优快云博客专家、阿里云社区专家博主,多次对外主题演讲和报告。对国内自动驾驶产品较为了解,熟悉自动驾驶系统全栈研发体系。
展开
-
《手把手带你开始计算机视觉项目实战》专栏概述 | 实战教程,开放源码
只是看理论,却总也学不会?看不懂,又总没有进度?如果你也有这类问题,那你来看看这个专栏。以实际项目为导向,亲自动手实践,从简单的手写字识别、人脸检测、图像分类开始,逐渐学习掌握实例分割、目标检测、车道线检测等进阶技能。学习有回馈、有成就感,你才能继续下去。原创 2020-12-09 17:13:25 · 6406 阅读 · 2 评论 -
国内首个占据栅格网络全栈课程《从BEV到Occupancy Network,算法原理与工程实践》源代码
国内首个占据栅格网络全栈课程《从BEV到Occupancy Network,算法原理与工程实践》,包含端侧部署。原创 2024-08-16 17:21:23 · 566 阅读 · 1 评论 -
多模态最强综述,浅显易懂、娓娓道来 Generalized Visual Language Models
多年来,人们一直在研究处理图像以生成文本,例如图像字幕和视觉问答。传统上,此类系统依赖对象检测网络作为视觉编码器来捕获视觉特征,然后通过文本解码器生成文本。鉴于现有的大量文献,在这篇文章中,我想只关注解决视觉语言任务的一种方法,即扩展预训练的通用语言模型以能够消费视觉信号。我将此类视觉语言模型 (VLM) 大致分为四个类别:将图...原创 2022-09-06 19:00:00 · 702 阅读 · 0 评论 -
李飞飞团队提出零样本泛化的技术,性能超越SOTA!
没错!又是李飞飞!走在队伍前面的,是来自斯坦福大学的博士,李飞飞的门生!先来看看李飞飞团队这次在arXiv上发表了的论文题目:SECANT:用于视觉策略零样本泛化的自专家克隆废话少说,给大家介绍一下这篇论文的大致内容。论文介绍简要介绍强化学习中的泛化(generalization),是指通过不断跟环境交......原创 2022-04-28 19:34:07 · 294 阅读 · 0 评论 -
NeurIPS 2021 Spotlight | 准确、快速、内存经济,新框架MEST实现边缘设备友好的稀疏训练...
美国东北大学王言治教授、林雪教授研究组与威廉玛丽学院任彬教授研究组共同提出了一种稀疏训练新框架MEST,有望在边缘设备上实现准确、快速以及内存经济的稀疏训练。在剪枝技术被成功应用于神经网络的压缩和加速之后,稀疏训练在近年来受到了越来越多研究者的关注,即如何从零开始直接训练一个高质量的稀疏神经网络。稀疏训......原创 2022-04-04 19:48:39 · 509 阅读 · 0 评论 -
CV的未来究竟是ConvNeXt 还是Transformer?
2012年,AlexNet横空出世,推动深度学习快速发展,带动AI的第三波浪潮,转眼已经十年弹指一挥间。https://subscription.packtpub.com/book/data...原创 2022-05-10 19:00:00 · 346 阅读 · 0 评论 -
文本生成图像这么火,你需要了解这些技术的演变
大家好,我是Charmve!目前多模态任务成为行业热点,今天将带大家梳理一下较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。OpenAI 最近发布了DALL·E 2系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年......原创 2022-06-06 19:00:50 · 258 阅读 · 0 评论 -
实战教程 | 用让新海诚本人惊讶的 AI 模型制作属于你的动漫视频
本文将介绍如何使用 GAN 模型来生成属于你自己的动漫风格的视频,为自己、喜欢的菇凉或者调皮可爱孩子生成一个别具一格的动漫风格的视频。本文操作难度较低,适合想要试玩了解 GAN 模型的同学。可以同时使用 CPU / GPU (包括 ARM M1)来完成。...转载 2022-06-06 14:52:03 · 993 阅读 · 0 评论 -
实战教程 | 车道线检测项目实战,霍夫变换 & 新方法 Spatial CNN
在本教程中,我们将学习如何使用计算机视觉技术来编写车道线实时检测程序。我们将通过两种不同的方法来完成这项任务,从实际的算法编写流程带领大家从实现到优化的过程。原创 2021-05-11 18:40:00 · 1920 阅读 · 13 评论 -
实战教程 | 使用Scratch中的NumPy构建卷积神经网络,开放源码
理论篇:算法基础(可选择后看)本专栏所涉及的项目所需机器学习/图像处理知识并不深入,但我之前也开设了《机器学习算法讲解与Python实现》和《计算机视觉前沿论文研读》两个专栏。一个更偏算法理论,一个则关注于计算机视觉顶会的前沿论文成果,解读新的方法和Idea。《机器学习算法讲解与Python实现》该专栏分类讲解机器学习算法原理,深度解析决策树、贝叶斯算法、逻辑回归、梯度下降、集成学习、k最近邻、支持向量机等,并给出Python实现源程序,同时分享以实战为导向的Kag...原创 2021-11-04 19:19:14 · 294 阅读 · 0 评论 -
CV实战 | 使用OpenCV进行图像全景拼接
图像拼接是计算机视觉中最成功的应用之一。如今,很难找到不包含此功能的手机或图像处理API。在本文中,我们将讨论如何使用Python和OpenCV进行图像拼接。也就是,给定两张共享某些公共区域的图像,目标是“缝合”它们并创建一个全景图像场景。当然也可以是给定多张图像,但是总会转换成两张共享某些公共区域图像拼接的问题,因此本文以最简单的形式进行介绍。本文主要的知识点包含一下内容: 关键点检测 局部不变描述符(SIFT,SURF等) 特征匹配 使用RANSA...转载 2020-12-12 15:25:50 · 4436 阅读 · 2 评论 -
CV实战 | 使用OpenCV实现道路车辆计数
使用OpenCV实现道路车辆计数今天,我们将一起探讨如何基于计算机视觉实现道路交通计数。在本教程中,我们将仅使用Python和OpenCV,并借助背景减除算法非常简单地进行运动检测。我们将从以下四个方面进行介绍:1. 用于物体检测的背景减法算法主要思想。2. OpenCV图像过滤器。3. 利用轮廓检测物体。4. 建立进一步数据处理的结构。背景扣除算法有许多不同的背景扣除算法,但是它们的主要思想都很简单。假设有一个房间的视频,在某些帧上没有人和...转载 2020-12-12 15:23:03 · 4148 阅读 · 4 评论 -
教程 | 如何使用变分自编码器VAE生成动漫人物形象
变分自编码器(VAE)与生成对抗网络(GAN)经常被相互比较,其中前者在图像生成上的应用范围远窄于后者。VAE 是不是只能在 MNIST 数据集上生成有意义的输出?在本文中,作者尝试使用 VAE 自动生成动漫人物的头像,并取得了不错的结果。原创 2020-12-09 19:30:00 · 1303 阅读 · 0 评论 -
实战项目 | 利用边缘检测计算物体面积(内含源码)
点击上方“迈微AI研习社”,选择“星标★”公众号重磅干货,第一时间送达文末有项目源码链接。在农业中,通常希望获取不同土地的面积。虽然获取这些土地的面积操作相对容易,但是却涉及高额的费用。另...转载 2021-11-05 19:00:00 · 1268 阅读 · 0 评论 -
项目实战 基于图割算法的木材表面缺陷图像分析
鉴于图割方法的明显优势,白雪冰及其团队采用Graph Cuts算法和Grab Cut算法分别对木材表面的单目标和多目标缺陷图像进行分割试验,以总结传统图割方法的不足和改进算法的优点。原创 2021-09-01 19:00:00 · 514 阅读 · 0 评论 -
Transformer 原理讲解以及在 CV 领域的应用
目前已经有基于Transformer在三大图像问题上的应用:分类(ViT),检测(DETR)和分割(SETR),并且都取得了不错的效果。那么未来,Transformer有可能替换CNN吗,Transformer会不会如同在NLP领域的应用一样革新CV领域?后面的研究思路可能会有哪些呢?敬请期待下一篇文章给出解答。原创 2021-05-17 20:05:00 · 2928 阅读 · 3 评论 -
计算机视觉编程实战——基本的图像操作和处理python实现
第1章 基本的图像操作和处理1.1 PIL:Python图像处理类库1.1.1 转换图像格式——save()函数1.1.2 创建缩略图1.1.3 复制并粘贴图像区域1.1.4 调整尺寸和旋转1.2 Matplotlib库1.2.1 画图、描点和线1.2.2 图像轮廓和直方图1.2.3 交互式标注1.3 NumPy库1.3.1 图像数组表示1.3.2 灰度变换1.3.3 图像缩放1.3.4 直方图均衡化1.3.5 图像平均1.3.5 对图像进行主成分分析1.3.6 Pickl转载 2021-04-14 19:17:55 · 521 阅读 · 0 评论 -
教程 | 如何使用Docker、TensorFlow目标检测API和OpenCV实现实时目标检测和视频处理...
本文展示了如何使用 Docker 容器中的 TensorFlow 目标检测 API,通过网络摄像头执行实时目标检测,同时进行视频后处理。作者使用的是 OpenCV 和 Python3 多进程和多线程库。本文重点介绍了项目中出现的问题以及作者采用的解决方案。转载 2020-11-19 19:30:00 · 940 阅读 · 1 评论 -
实战教程(2) | 深度学习 + OpenCV,Python实现实时视频目标检测
使用 OpenCV 和 Python 对实时视频流进行深度学习目标检测是非常简单的,我们只需要组合一些合适的代码,接入实时视频,随后加入原有的目标检测功能。原创 2020-11-23 19:31:17 · 2668 阅读 · 0 评论 -
计算机视觉实战 | 练手项目,开放源码
导言只是看理论,却总也学不会?看不懂,又总没有进度?如果你也有这类问题,那你来看看这个专栏。以实际项目为导向,亲自动手实践,从简单的手写字识别、人脸检测、图像分类开始,逐渐学习掌握实例分割、目标检测、车道线检测等进阶技能。学习有回馈、有成就感,你才能继续下去。知乎和公众号上收到了太多人给我的私信,想找可以具体操作的机器视觉项目。由于各种原因,回复的时候总是零零散散。经过大半年的收集整理,我决定开设此专栏,以项目实践为导向,手把手带你从基本的手写字识别、图像/视频编码...原创 2022-02-23 14:33:18 · 2366 阅读 · 0 评论 -
一文搞懂异常检测中离群、异常、新类、开集、分布外检测异同
你是否也曾迷惑于「离群检测,异常检测,新类检测,开集识别,分布外检测」之间错综复杂的关系?你是否也想要解决开放世界的问题却不知道从哪个任务入手?不知道利用什么方法解决问题?这篇最新综述将让你对开放世界领域有全新的认识!原创 2021-10-27 19:00:00 · 698 阅读 · 0 评论 -
CVPR 2021 论文大盘点-文本图像篇
本文收集文本检测与识别相关论文,包含任意形状文本检测、场景文本识别、手写文本识别、文本分割、文本图像检索、视频文本识别等,有趣的方向很多,共计 17 篇。原创 2021-09-24 19:00:00 · 1086 阅读 · 1 评论 -
实操教程|怎样制作目标检测的训练样本图像?
看到这个题目相信不少人第一感觉是小题大作、故弄玄虚。不过还请先稍微按捺一下胸中的不快,在脑中给出下面这几个问题的答案。然后对照一下本文将要给出的答案,看看是否能够心平气和转载 2021-06-04 19:00:00 · 863 阅读 · 0 评论 -
实战教程 | 使用Scratch中的NumPy构建卷积神经网络,开放源码
终于和大家见面了!见字如面,这中间遇到点始料未及的事情,但终究将该实践指导撰写完毕。按照常规,我本以为这是一个类似于之前做过的专栏、课程,需要先写一个专栏概述,介绍本专栏/课程具体包含的内容,给出大致课程的安排,最后带领大家一起学习交流。最后发现,咱们这边chat不是这样的方式,是一篇文章,这跟我之前的预期不太一样,所以在接到这边平台的飘静的审稿通知后,不得不马不停蹄从3号重新规划文章内容,编写源程序。总之,这边的文章质量真的是对得起读者,审稿很仔细。接下来,我大致将此文按照这样的逻辑进行撰写。分享机器原创 2021-03-26 15:01:43 · 709 阅读 · 0 评论 -
机器学习实战 | 卷积神经网络详解(二)——自己手写一个卷积神经网络
本期文章带迈微社友们一起自己动手写一个卷积神经网络转载 2020-05-12 15:59:51 · 10474 阅读 · 1 评论 -
AAAI 2022 | 在图像级弱监督语义分割这项CV难题上,字节跳动做到了性能显著提升...
论文提出了一种面向图像级标签的弱监督语义分割的激活值调制和重校准方案。该方法利用注意力调制模块挖掘面向分割任务的目标区域,通过补偿分支产生的CAM图校准基准的响应图,得到图像的伪标签,该方法在PASCAL VOC2012数据集上获得了SOTA性能。图像级弱监督语义分割(WSSS)是一项基本但极具挑战性的...原创 2022-03-22 19:02:39 · 519 阅读 · 0 评论 -
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
mask-and-predict 的方法可能会成为计算机视觉领域的新流派。自监督预训练在自然语言处理方面取得了惊人的成...原创 2022-03-18 19:12:15 · 196 阅读 · 0 评论 -
完全解析RNN, Seq2Seq, Attention注意力机制
循环神经网络RNN结构被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。本文主要介绍经典的RNN结构,以及RNN的变种(包括Seq2Seq结构和Attention机制)。希望这篇文章能够帮助初学者更好地入门。转载 2021-04-20 18:40:00 · 825 阅读 · 0 评论 -
L0CV-Challenges | 计算机视觉实战项目,提供baseline
????全书组织|????本书目录|????如何食用|❓常见问题|????社区互助GitHubhttps://github.com/Charmve/computer-vision-in-action/tree/main/L0CV-UniverseL0CV-Challenges是面向各计算机视觉任务的 Baseline 复现及提高,组织一起志同道合的小伙伴一起复现最新论文。Challenges 1️⃣视频补全 [ECCV 2020] Flow-edge Gui...原创 2021-09-04 11:41:39 · 344 阅读 · 0 评论 -
紧跟步伐,何恺明新作MAE复现历程
本文已获CW不要無聊的風格的发布授权,原文标题为《别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Scalable Vision Learners) 玩玩吧!》,如需转载请与原作者联系。转载 2021-12-27 19:00:00 · 3257 阅读 · 1 评论 -
压缩版StyleGAN,合成高保真图像,参数更少、计算复杂度更低
一个名为 MobileStyleGAN 的新架构大大减少了基于样式 GAN 的参数量,降低了计算复杂度。近年来在生成图像建模中,生成对抗网络(GAN)的应用越来越多。基于样式(style-based)的 GAN 可以生成不同层次的细节,大到头部形状、小到眼睛颜色,它在高保真图像合成方面实现了 SOTA,但其生成过程的计算复杂度却非常高,难以应用于智能手机等移动设备。转载 2021-04-15 18:40:00 · 259 阅读 · 0 评论 -
超详细图解Self-Attention的那些事儿
向量的内积是什么,如何计算,最重要的,其几何意义是什么?一个矩阵 与其自身的转置相乘,得到的结果有什么意义?原创 2022-03-06 20:13:52 · 370 阅读 · 0 评论 -
人人都能看懂的LSTM
熟悉深度学习的朋友知道,LSTM是一种RNN模型,可以方便地处理时间序列数据,在NLP等领...原创 2022-03-11 19:00:00 · 406 阅读 · 1 评论 -
Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop
本文为Kaggle X光肺炎检测比赛第二名方案。在这项工作中,使用了基于Se-ResNext101为主干网络的RetineNet SSD网络模型, 同时使用了数据增广和多任务学习的技巧来实现肺炎区域的检测。转载 2020-06-12 16:51:48 · 1970 阅读 · 0 评论 -
如何从零开始构建深度学习项目?这里有一份详细的教程
在学习了有关深度学习的理论课程之后,很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始,告诉你如何解决项目开发中会遇到的各类问题。转载 2020-12-14 19:45:00 · 1183 阅读 · 0 评论 -
计算机视觉热点探讨:MLP,RepMLP,全连接与“内卷”
本文介绍了一篇关于MLP的工作-RepMLP:用卷积去增强FC,既利用其全局性又赋予其局部性,并通过结构重参数化,将卷积融合到FC中去,从而在推理时去除卷积转载 2021-06-20 19:00:00 · 1132 阅读 · 0 评论 -
L0CV开源项目节选 | 第 23 章 轻量级网络浅析
努力打造GitHub最好的计算机视觉中文学习媒介,结合图示、代码和HTML的交互式学习平台。节选第23章-轻量级网络浅析。原创 2021-08-24 11:40:35 · 526 阅读 · 0 评论 -
基于深度学习的特征提取和匹配,全解析
计算机视觉需要图像预处理,比如特征提取,包括特征点,边缘和轮廓之类。以前做跟踪和3-D重建,首先就得提取特征。特征点以前成功的就是SIFT/SURF/FAST之类,现在完全可以通过CNN模型形成的特征图来定义。转载 2021-09-05 19:00:00 · 1653 阅读 · 0 评论 -
完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明...
点击上方“迈微AI研习社”,选择“星标★”公众号重磅干货,第一时间送达鱼羊 明敏 发自凹非寺丨公众号 QbitAI看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?No、No...转载 2021-09-02 08:00:00 · 901 阅读 · 0 评论 -
YOLO系列的又一集大成者:YOLOX!
最新的YOLO系列工作:YOLOX开源啦!强如旷视,又为Detection领域带来了新工具!原创 2021-08-19 16:09:42 · 754 阅读 · 0 评论