CV算法恩仇录-优快云博客

原创从头开始实现一个神经网络

本篇文章非常适合初学者阅读，假设读者没有机器学习的基础。接下来将介绍神经网络的工作原理，如何用 Python 从头开始实现一个神经网络。

2022-12-06 10:16:50 784

原创：杨其泓1. 计算机视觉1.1. 什么是计算机视觉计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学，更进一步地说，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的科学。近几年计算机视觉技术实现了快速发展，其主要学术原因，是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别准确率首次超过人类，使之具真正具有了实际应用的能力（要不然别人会说：你找几个人来干不是更好吗），同年Google也开源了自己的深度学习算法。计算机视觉的众多实际应用，细化

2022-05-12 14:45:17 5486

原创目标检测综述

原创：悬鱼铭目标检测(Object Detection)任务是计算机视觉中非常重要的基础问题，也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体，如果存在，输出物体在图像中的位置信息（矩形框的坐标值表示，Xmin、Ymin、Xmax、Ymax）。早期，传统目标检测算法还没有使用深度学习，一般分为三个阶段：区域选取、特征提取、特征分类。区域选取：采用滑动窗口(Sliding Windows)算法，选取图像中可能出现物体的位置，这种算法会存在大量冗

2022-05-05 19:20:52 2121

原创 Swin Transformer详解

原创：余晓龙“Swin Transformer: Hierarchical Vision Transformer using Shifted Window”是微软亚洲研究院（MSRA）发表在arXiv上的论文，文中提出了一种新型的Transformer架构，也就是Swin Transformer。本文旨在对Swin Transformer架构进行详细解析。一、Swin Transformer网络架构整体的网络架构采取层次化的设计，共包含4个stage,每个stage都会缩小输入特征图的分辨率，类似于

2022-04-28 19:02:14 8325 1

原创使用TensorFlow手写Transformer

由于目前”调包“非常方便，往往让人忽略对于算法的深入理解。本文介绍使用TensorFlow从0实现Transformer，帮助从代码角度理解原理及其中的细节。

2022-04-27 15:33:49 2075

原创把握Web3.0风口，拥抱数字化浪潮

Web3.0代表了下一代互联网的大浪潮，这次的浪潮只会比移动互联网更大。作为工程师，该如何抓住机会，拥抱下一代互联网？

2022-04-20 14:28:34 7177

原创 OCR入门（附数据集链接）

近日，“大学生用OCR+正则表达式快速核查学生核酸报告”的新闻火了，细心观察我们就能发现，生活里OCR的身影到处都是：文档扫描、车牌识别、证件识别等等。在这个信息技术高速发展的时代，越来越多的小事可以“智能化”、“信息化”，曾经需要浪费诸多人力物力才能完成的事，可以通过新的技术轻松地解决。

2022-04-14 11:18:21 1727

原创人工智能与数据科学从业者必会的三个Python技能点

本文以实际问题驱动，主要介绍三个有助于提高Python编程能力的技能点。

2022-04-13 12:57:21 1710

原创一文概览相机模型

原创：杨其泓引言随着智能手机的发展，用手机拍摄照片已经称为大众日常生活中的一部分。对准被拍摄的物体，按下快门，一张美丽的照片就拍摄完成了。不知你有没有想过，如此简单的一个过程，从原理上是如何实现的呢？三维世界中的物体是怎么映射到二维的图像上的呢？这个映射关系与什么参数相关呢？下面我将针对相机模型的问题，为大家一一进行解答。四大坐标系在学习相机模型之前，我们首先要了解 “四大坐标系”。有的同学可能会想，不就是从空间映射到图片吗，这么简单的过程怎么会用到四个坐标系？其实还真的用！世界坐标系：世界坐标

2022-04-07 13:25:57 502

原创 Pytorch预训练模型、内置模型实现图像分类、检测和分割

原创：余晓龙Pytorch中提供了很多已经在ImageNet数据集上训练好的模型了，可以直接被加载到模型中进行预测任务。预训练模型存放在Pytorch的torchvision中库，在torchvision库的models模块下可以查看内置的模型，models模块中的模型包含四大类，如图所示：一、图像分类代码实现# coding: utf-8from PIL import Imageimport matplotlib.pyplot as pltplt.rcParams['font.sans-

2022-04-01 10:47:02 3781

原创初识人工智能原理

你好，欢迎打开文章，本次分享是用通俗易懂的语言让你理解人工智能的奥秘！分享的内容分为两个部分，第一个部分是人工智能数据的数值表示，第二部分是人工智能原理，全文字数3千左右，阅读时间大约8分钟。

2022-03-24 16:53:46 5405

原创关于CNN的可解释性

原创：王稳钺资料来源：贾老师本文前两部分介绍CNN的结构、作用以及可解释性的定义、可解释性与可靠性的关系，第三部分介绍解决可解释性问题的主要方法CAM、Grad CAM原理。1. 认识CNNCNN主要就是由Conv、ReLU、Pooling层堆叠而成。当输入图片给CNN网络，经过不同的操作，会产生各种中间图，如下图。其实下图来自一个可交互的网页，该网页会详细的展示如何通过卷积得到对应的图，感兴趣的同学可以根据下图中左下角的链接了解一下。例如第一层叫做卷积层，实际上是先用了一个滤波器，就是图中

2022-03-23 14:57:24 4402

原创无人机仿真平台搭建

原创：王稳钺本文主要介绍搭建一个无人机仿真平台所需的软件及其简介。1. ROS简介及安装ROS是一个比较复杂的概念。在ROS WiKi中，ROS的定义为：一个开放源代码的机器人元操作系统。这里有个比较关键的概念就是元操作系统，它和常见的Windows、Linux、安卓等系统不同，它相当于是在更底层的操作系统之上做了进一步的封装。ROS提供了我们对于操作系统期望的服务，包括硬件抽象、低级设备控制常用功能的实现、进程间的消息传递以及功能包管理。它还提供用于在多台计算机之间获取、构建、编写和运行代码的工具和

2022-03-16 16:21:33 3299

原创你真的弄懂算法面试必会的三个知识点了吗？

原创：PinkFeet一、引言反向传播算法、随机梯度下降算法、Batch Normalization是深度学习算法的基本知识，是算法岗面试中的几乎必问的问题。但如果只能说出个大概，并没有吃透知识点，面试就会遭遇滑铁卢。所以，及时复习反向传播、随机梯度下降、Batch Normalization这三个基础知识点，才能在面试中做到不丢基础分。二、反向传播算法反向传播算法和前向传播的实现相辅相成。前向传播的实现相对简单，学过线性代数的知识就可以理解。1.前向传播算法假设输入X为N * m的矩阵，W为

2022-03-10 14:53:37 1494

原创 AI工程师的自我修养

原创：晏茜资料来源：LeeAI 行业如今是一个炙手可热的行业，也许有一些正从事或曾经从事于其他行业的同学，希望能有一个更好的职业选择，而 AI 行业正如火如荼的发展，他们想加入 AI 发展的浪潮，也许还有一些已经从事于 AI 行业的同学，想进一步提升自己的个人能力，针对这两类同学的诉求，作者会在正式讲解 AI 工程师的自我修养之前，先介绍 AI 相关的知识和现状，为他们提供参考。所以，前三部分的内容会围绕 AI 相关的知识和现状来展开。首先，会介绍 AI 产业的发展概况和人工智能领域当今主流的技术方向，

2022-03-09 18:13:44 1828

原创 OpenCV常用操作

原创：杨其泓1 OpenCV入门基础1.1 OpenCV简介OpenCV的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。OpenCV-Python是OpenCV的Python API，集成了Python语言和C++语言的最优特征，致力于支持Python解决计算机视觉问题。1.2

2022-03-03 17:31:57 3709

原创计算机视觉算法竞聘者的职业技能需求

原创：王稳钺资料来源：二可有很多对计算机视觉方向竞聘者对于CV面试过程当中需要具备哪些技能不太了解，本文主要介绍计算机视觉面试中主要的考核技术点。1. CV算法岗的总体能力需求首先CV的应用领域非常广泛。比如无人车，其中会需要车道线的检测等；比如利用GAN来实现老照片修复、美颜等。现在还有一些比较前沿的应用——元宇宙，其实在之前被称为虚拟现实领域，它背后其实隐藏着大量的理论。比如虚拟的物体，它如何能够像真实物体一样，定在某一位置，不随着设备的移动而移动，其实这背后是非常复杂的数学原理，需要实时地去计

2022-03-02 14:01:23 3299

原创目标检测快速入门（含YOLO V1原理详解）

原创：悬鱼铭目标检测(Object Detection)任务是计算机视觉中非常重要且热门的研究方向之一，是计算机视觉算法工程师的必考的知识点。本文通过以下几点阐述：目标检测的简介目标检测的发展YOLO V1 原理详解全文总共3千字左右，阅读时间12分钟！目标检测的简介目标检测是解决图像分割、目标跟踪、图像描述等问题的基础，推动着它们的发展。目标检测到现今已经研究20年有余，04年，Viola 和 Jones学者研究的实时人脸检测的文章，引用量高达2万1千多[2]。目标检测有非

2022-02-24 14:34:55 1161

原创人工智能学习笔记

原创：王稳钺资料来源：单博人工智能如今已经和人们的生活密不可分。如果对人工智能感兴趣，想要学习人工智能该如何学习呢？1. 人工智能在哪里？先从日常生活中的人工智能聊起。淘宝、抖音等软件，它们是一种推荐系统，会推测用户喜欢什么。比如最近天气冷了，可能得想买一件羽绒服，在淘宝搜索以后，就会发现淘宝在最近几天总会推荐相关的产品。阿里云音乐也是一样的原理。比如最近有在听李荣浩的歌，网易云就会推荐一些相关的歌曲。这些例子都是推荐系统相关的，或者也可以称为商业智能。还有一些计算机视觉相关的应用。比如手机已经可

2022-02-23 16:25:09 1272

原创基于最大化互信息模型的图片搜索系统实现

原创：余晓龙图片搜索系统主要分为特征提取和特征匹配两个部分，其中特征提取是深度学习模型中进行数据处理的主要环节，本文将通过一种基于无监督方式—最大化深度互信息（DIM）方法来进行特征提取，并利用提取出来的低维特征实现图片搜索系统。1. DIM模型原理DIM模型是通过计算输入样本与编码器输出的特征向量之间的互信息，利用最大化互信息来实现模型的训练。DIM模型在无监督训练中使用两种约束来表示学习。（1）最大化输入信息和高级特征向量之间的互信息：如果模型输出的低维特征能够代表输入样本，那么该特征分布与输

2022-02-17 15:54:27 2351

原创神奇的“GAN”

原创：王稳钺GAN最神奇的地方在于它可以生成新的信息，这是其他算法很难甚至根本就做不到的。因此，通过GAN，可以完成很多有趣的应用。本文章将从GAN在CV中的应用、GAN的理论与框架、应用GAN的实际项目和项目优化四个部分详细的介绍GAN的神奇之处。1. 对抗生成网络(GAN)在计算机视觉(CV)中的应用左图展示了可以通过自身的面部表情，来驱动其他物体的表情。人如何动，狗就会跟着改变。右图展示了一个瘦脸特效，这其实也可以通过GAN来实现。通过GAN，还可以让静态的图片动起来。进而延伸，GAN也可以

2022-02-16 14:35:44 1463

原创 MMCV:MMDetction所依赖的调参基础库

原创：赵明明做目标检测的同学应该已经接触过或者正要接触MMDetection，当你接触到MMDeteciton的时候，你会发现，它的代码有点奇怪：它不写train函数，不写eval函数，反而配置了一个runner,把训练过程配置到runner中，运行runner,就是运行train/eval函数.如下：上图第84行，就是对runner的运行。在运行之前的第62行，第78行，分别将模型model，优化器optimizer,日志logger,学习率调整策略配置入runner内。配置好后，运行runner就

2022-02-10 14:39:57 2609

原创笔试算法刷题

原创：王稳钺资料来源：安老师一、刷题方法与面\笔试能力突破技巧平时刷题时，市面上大多数尤其以LeetCode为首很多的题库，以及很多人写的题解，非常习惯把算法分类，包括贪心、二分、动态规划等。其实这种分类是比较笼统的，如果在做题的时候，第一直觉先判断这是哪一类的题其实并不是一个很好的策略，千万不要去用这种归类的方式去做题。最好的办法是要培养一种题感，拿到一道题时，应该去想这道题应该往哪个方向去做，这种感觉是最重要的，而真正用什么算法去解决其实是第二步去思考的。同时，比如LeetCode中，题是非常多

2022-02-09 12:48:26 711 1

原创 OpenCV 编译安装教程

原创：PinkFeet本文全程科学上网。传统视觉算法时代，GPU 的作用没有现在明显。近些年来，随着深度学习方法崛起，卷积神经网络模块被嵌入到了 OpenCV，加上特定任务场景下的需求，GPU 的重要性越来越显著，计算机视觉从业人员用到 GPU 的机会越来越多。首先，简单介绍一下 GPU。英伟达最新的一块显卡上的核心可以达到上万个，每一个核心可以同时进行运算，从而达到大规模降低运行时间的效果，但每一个核心运行的内容逻辑不能很复杂，所以它天然地适合做矩阵运算，尤其是高维的矩阵运算。如果任务实时性要

2022-01-27 12:14:08 7522

原创计算机视觉的前世今生

计算机视觉的前世今生原创：王稳钺资料来源：安健侨一、人工智能之智这个图非常有意思，这是按照时间线排布的不同画师画的朱元璋。如果了解历史，都知道他长得巨丑无比。他丑到什么程度呢？据说他的下巴可以当武器来用。而且他对自己的容貌还非常自信，经常喜欢找一些人给他画画。一开始他找了一个画师，画了第一个图。可能是因为太还原真实相貌了，第一个画师被斩了。然后朱元璋就换了一个画师，画成第二个图，明显可以看出皮肤光滑了一些。按照现在的技术来说，这是做了一个磨皮或者叫滤波。一种滤波方法是把图像当中的每一个像素点，都用

2022-01-25 10:54:51 2918

原创跑通FaceNet人脸识别

原创：杨其泓一、前言FaceNet是一个十分经典的人脸识别模型，并且具有较好的性能，但要实现使用自己的数据进行人脸识别，还需要对模型进行重新训练。本文将介绍跑通一个简单FaceNet的全部流程，以及踩坑记录。二、方案技术路线人脸检测：使用 Dlib 中预先训练的模型检测面部；人脸校准：使用 Dlib 的实时姿势估计与 OpenCV 的仿射变换来尝试使眼睛和下唇在每个图像上出现在相同位置；卷积网络：使用深度神经网络把人脸图片映射为 128 维单位超球面上的一个点；分类：

2022-01-20 14:39:20 3685

原创元宇宙背后，你应该了解的人工智能核心技术

原创：王稳钺资料来源：单博一、真假元宇宙最近元宇宙这个概念非常火，网上的资料也是铺天盖地。但个人认为元宇宙这个概念里蹭热点的人非常的多，元宇宙还是处于概念为主的阶段。很多人说自己在做元宇宙，但其实都是真假难辨的状态。在元宇宙这个词出现之前，其实有很多相关的概念，比如虚拟现实（ VR ）、数字孪生、自动化等。数字孪生其实就是仿真建模，比如说我国的国产的飞机 919 等大型的机械化的电气化的设备在生产的过程中，都会涉及到跟数字孪生相关的一些数字仿真。元宇宙这个概念，其实应该更加理性去看待，关于元宇宙，人们

2022-01-18 18:44:23 1782

原创图像分类快速入门：原理与代码

原创：悬鱼铭图像分类是人工智能中重要的基础任务，也是目标检测、图像分割、目标跟踪等视觉进阶任务的基础，是人工智能从业者必须掌握的知识点。本文通过以下几点阐述：图像分类有哪些落地场景？图像分类有哪些细分任务？图像分类如何实现？（有代码注释）图像分类的损失函数全文总共3千字左右，阅读时间10分钟！一、图像分类有哪些落地场景？图像分类是计算机视觉领域的基础任务，也是应用比较广泛的任务。图像分类用来解决“是什么”的问题，如给定一张图片，用标签描述图片的主要内容，下图中有三个企鹅，

2022-01-13 11:44:22 4028 1

原创带你轻松写出第一篇优秀论文

原创：王稳钺资料来源：单博1. 认识学术论文1.1 国际权威出版社：国际上比较权威的学术出版机构有什么呢？如果看论文比较多，对于一些名词肯定都不陌生，比如爱思唯尔(Elsevier)、斯普林格出版社（Springer—Verlag）、电气与电子工程师协会（IEEE）、国际计算机协会（ACM）等等，这些都是非常权威的出版社。爱思唯尔的logo很容易被人记住——一颗苹果树下一位拿着剪刀的老人。爱思唯尔出版社的规模非常的大，每年在2500 种期刊发表的文章是超过 50 万篇，论文体量非常大，而且它除了学

2022-01-11 12:42:50 1711

原创带你实现电商商品同款识别算法

电商本身就是用户体量非常多的业务场景，也是产生利润最多的一个业务场景。我们如何从淘宝找到同款商品呢？

2022-01-11 11:59:49 5703 1

原创深度学习之模型压缩（剪枝、量化）

随着深度学习的发展，模型变得越来越复杂，随之而来的模型参数也越来越多，对于需要训练的模型硬件要求也越来越高。模型压缩技术就是为了解决模型使用成本的问题。通过提高推理速度，降低模型参数量和运算量。现在主流的模型压缩方法包含两大类：剪枝和量化。模型的剪枝是为了减少参数量和运算量，而量化是为了压缩数据的占用量。

2022-01-06 17:24:48 9248 7

我的博客

原创卷积层原理与计算