自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 卷积层 原理与计算

卷积层 了解一下~

2022-12-08 11:17:51 1631

原创 从头开始实现一个神经网络

本篇文章非常适合初学者阅读,假设读者没有机器学习的基础。接下来将介绍神经网络的工作原理,如何用 Python 从头开始实现一个神经网络。

2022-12-06 10:16:50 726

原创 浅谈计算机视觉与自然语言处理

原创:杨其泓1. 计算机视觉1.1. 什么是计算机视觉计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学, 更进一步地说,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和 测量的科学。近几年计算机视觉技术实现了快速发展,其主要学术原因,是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的识别准确率首次超过人类,使之具真正具有了实际应用的能力(要不然别人会说:你找几个人来干不是更好吗),同年Google也开源了自己的深度学习算法。计算机视觉的众多实际应用,细化

2022-05-12 14:45:17 5168

原创 目标检测综述

原创:悬鱼铭目标检测(Object Detection)任务是计算机视觉中非常重要的基础问题,也是解决图像分割、目标跟踪、图像描述等问题的基础。目标检测是检测输入图像是否存在给定类别的物体,如果存在,输出物体在图像中的位置信息(矩形框的坐标值表示,Xmin、Ymin、Xmax、Ymax)。早期,传统目标检测算法还没有使用深度学习,一般分为三个阶段:区域选取、特征提取、特征分类。区域选取:采用滑动窗口(Sliding Windows)算法,选取图像中可能出现物体的位置,这种算法会存在大量冗

2022-05-05 19:20:52 2019

原创 Swin Transformer详解

原创:余晓龙“Swin Transformer: Hierarchical Vision Transformer using Shifted Window”是微软亚洲研究院(MSRA)发表在arXiv上的论文,文中提出了一种新型的Transformer架构,也就是Swin Transformer。本文旨在对Swin Transformer架构进行详细解析。一、Swin Transformer网络架构整体的网络架构采取层次化的设计,共包含4个stage,每个stage都会缩小输入特征图的分辨率,类似于

2022-04-28 19:02:14 7900 1

原创 使用TensorFlow手写Transformer

由于目前”调包“非常方便,往往让人忽略对于算法的深入理解。本文介绍使用TensorFlow从0实现Transformer,帮助从代码角度理解原理及其中的细节。

2022-04-27 15:33:49 1963

原创 把握Web3.0风口,拥抱数字化浪潮

Web3.0代表了下一代互联网的大浪潮,这次的浪潮只会比移动互联网更大。作为工程师,该如何抓住机会,拥抱下一代互联网?

2022-04-20 14:28:34 7086

原创 OCR入门(附数据集链接)

近日,“大学生用OCR+正则表达式快速核查学生核酸报告”的新闻火了,细心观察我们就能发现,生活里OCR的身影到处都是:文档扫描、车牌识别、证件识别等等。在这个信息技术高速发展的时代,越来越多的小事可以“智能化”、“信息化”,曾经需要浪费诸多人力物力才能完成的事,可以通过新的技术轻松地解决。

2022-04-14 11:18:21 1656

原创 人工智能与数据科学从业者必会的三个Python技能点

本文以实际问题驱动,主要介绍三个有助于提高Python编程能力的技能点。

2022-04-13 12:57:21 1631

原创 一文概览相机模型

原创:杨其泓引言随着智能手机的发展,用手机拍摄照片已经称为大众日常生活中的一部分。对准被拍摄的物体,按下快门,一张美丽的照片就拍摄完成了。不知你有没有想过,如此简单的一个过程,从原理上是如何实现的呢?三维世界中的物体是怎么映射到二维的图像上的呢?这个映射关系与什么参数相关呢?下面我将针对相机模型的问题,为大家一一进行解答。四大坐标系在学习相机模型之前,我们首先要了解 “四大坐标系”。有的同学可能会想,不就是从空间映射到图片吗,这么简单的过程怎么会用到四个坐标系?其实还真的用!世界坐标系:世界坐标

2022-04-07 13:25:57 427

原创 Pytorch预训练模型、内置模型实现图像分类、检测和分割

原创:余晓龙Pytorch中提供了很多已经在ImageNet数据集上训练好的模型了,可以直接被加载到模型中进行预测任务。预训练模型存放在Pytorch的torchvision中库,在torchvision库的models模块下可以查看内置的模型,models模块中的模型包含四大类,如图所示:一、图像分类代码实现# coding: utf-8from PIL import Imageimport matplotlib.pyplot as pltplt.rcParams['font.sans-

2022-04-01 10:47:02 3686

原创 初识人工智能原理

你好,欢迎打开文章,本次分享是用通俗易懂的语言让你理解人工智能的奥秘!分享的内容分为两个部分,第一个部分是人工智能数据的数值表示,第二部分是人工智能原理,全文字数3千左右,阅读时间大约8分钟。

2022-03-24 16:53:46 5268

原创 关于CNN的可解释性

原创:王稳钺资料来源:贾老师本文前两部分介绍CNN的结构、作用以及可解释性的定义、可解释性与可靠性的关系,第三部分介绍解决可解释性问题的主要方法CAM、Grad CAM原理。1. 认识CNNCNN主要就是由Conv、ReLU、Pooling层堆叠而成。当输入图片给CNN网络,经过不同的操作,会产生各种中间图,如下图。其实下图来自一个可交互的网页,该网页会详细的展示如何通过卷积得到对应的图,感兴趣的同学可以根据下图中左下角的链接了解一下。例如第一层叫做卷积层,实际上是先用了一个滤波器,就是图中

2022-03-23 14:57:24 4343

原创 无人机仿真平台搭建

原创:王稳钺本文主要介绍搭建一个无人机仿真平台所需的软件及其简介。1. ROS简介及安装ROS是一个比较复杂的概念。在ROS WiKi中,ROS的定义为:一个开放源代码的机器人元操作系统。这里有个比较关键的概念就是元操作系统,它和常见的Windows、Linux、安卓等系统不同,它相当于是在更底层的操作系统之上做了进一步的封装。ROS提供了我们对于操作系统期望的服务,包括硬件抽象、低级设备控制常用功能的实现、进程间的消息传递以及功能包管理。它还提供用于在多台计算机之间获取、构建、编写和运行代码的工具和

2022-03-16 16:21:33 3106

原创 你真的弄懂算法面试必会的三个知识点了吗?

原创:PinkFeet一、引言反向传播算法、随机梯度下降算法、Batch Normalization是深度学习算法的基本知识,是算法岗面试中的几乎必问的问题。但如果只能说出个大概,并没有吃透知识点,面试就会遭遇滑铁卢。所以,及时复习反向传播、随机梯度下降、Batch Normalization这三个基础知识点,才能在面试中做到不丢基础分。二、反向传播算法反向传播算法和前向传播的实现相辅相成。前向传播的实现相对简单,学过线性代数的知识就可以理解。1.前向传播算法假设输入X为N * m的矩阵,W为

2022-03-10 14:53:37 1461

原创 AI工程师的自我修养

原创:晏茜资料来源:LeeAI 行业如今是一个炙手可热的行业,也许有一些正从事或曾经从事于其他行业的同学,希望能有一个更好的职业选择,而 AI 行业正如火如荼的发展,他们想加入 AI 发展的浪潮,也许还有一些已经从事于 AI 行业的同学,想进一步提升自己的个人能力,针对这两类同学的诉求,作者会在正式讲解 AI 工程师的自我修养之前,先介绍 AI 相关的知识和现状,为他们提供参考。所以,前三部分的内容会围绕 AI 相关的知识和现状来展开。首先,会介绍 AI 产业的发展概况和人工智能领域当今主流的技术方向,

2022-03-09 18:13:44 1743

原创 OpenCV常用操作

原创:杨其泓1 OpenCV入门基础1.1 OpenCV简介OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。OpenCV-Python是OpenCV的Python API,集成了Python语言和C++语言的最优特征,致力于支持Python解决计算机视觉问题。1.2

2022-03-03 17:31:57 3672

原创 计算机视觉算法竞聘者的职业技能需求

原创:王稳钺资料来源:二可有很多对计算机视觉方向竞聘者对于CV面试过程当中需要具备哪些技能不太了解,本文主要介绍计算机视觉面试中主要的考核技术点。1. CV算法岗的总体能力需求首先CV的应用领域非常广泛。比如无人车,其中会需要车道线的检测等;比如利用GAN来实现老照片修复、美颜等。现在还有一些比较前沿的应用——元宇宙,其实在之前被称为虚拟现实领域,它背后其实隐藏着大量的理论。比如虚拟的物体,它如何能够像真实物体一样,定在某一位置,不随着设备的移动而移动,其实这背后是非常复杂的数学原理,需要实时地去计

2022-03-02 14:01:23 3221

原创 目标检测快速入门(含YOLO V1原理详解)

原创:悬鱼铭目标检测(Object Detection)任务是计算机视觉中非常重要且热门的研究方向之一,是计算机视觉算法工程师的必考的知识点。本文通过以下几点阐述:目标检测的简介目标检测的发展YOLO V1 原理详解全文总共3千字左右,阅读时间12分钟!目标检测的简介目标检测是解决图像分割、目标跟踪、图像描述等问题的基础,推动着它们的发展。目标检测到现今已经研究20年有余,04年,Viola 和 Jones学者研究的实时人脸检测的文章,引用量高达2万1千多[2]。目标检测有非

2022-02-24 14:34:55 1090

原创 人工智能学习笔记

原创:王稳钺资料来源:单博人工智能如今已经和人们的生活密不可分。如果对人工智能感兴趣,想要学习人工智能该如何学习呢?1. 人工智能在哪里?先从日常生活中的人工智能聊起。淘宝、抖音等软件,它们是一种推荐系统,会推测用户喜欢什么。比如最近天气冷了,可能得想买一件羽绒服,在淘宝搜索以后,就会发现淘宝在最近几天总会推荐相关的产品。阿里云音乐也是一样的原理。比如最近有在听李荣浩的歌,网易云就会推荐一些相关的歌曲。这些例子都是推荐系统相关的,或者也可以称为商业智能。还有一些计算机视觉相关的应用。比如手机已经可

2022-02-23 16:25:09 1177

原创 基于最大化互信息模型的图片搜索系统实现

原创:余晓龙图片搜索系统主要分为特征提取和特征匹配两个部分,其中特征提取是深度学习模型中进行数据处理的主要环节,本文将通过一种基于无监督方式—最大化深度互信息(DIM)方法来进行特征提取,并利用提取出来的低维特征实现图片搜索系统。1. DIM模型原理DIM模型是通过计算输入样本与编码器输出的特征向量之间的互信息,利用最大化互信息来实现模型的训练。DIM模型在无监督训练中使用两种约束来表示学习。(1)最大化输入信息和高级特征向量之间的互信息:如果模型输出的低维特征能够代表输入样本,那么该特征分布与输

2022-02-17 15:54:27 2285

原创 神奇的“GAN”

原创:王稳钺GAN最神奇的地方在于它可以生成新的信息,这是其他算法很难甚至根本就做不到的。因此,通过GAN,可以完成很多有趣的应用。本文章将从GAN在CV中的应用、GAN的理论与框架、应用GAN的实际项目和项目优化四个部分详细的介绍GAN的神奇之处。1. 对抗生成网络(GAN)在计算机视觉(CV)中的应用左图展示了可以通过自身的面部表情,来驱动其他物体的表情。人如何动,狗就会跟着改变。右图展示了一个瘦脸特效,这其实也可以通过GAN来实现。通过GAN,还可以让静态的图片动起来。进而延伸,GAN也可以

2022-02-16 14:35:44 1428

原创 MMCV:MMDetction所依赖的调参基础库

原创:赵明明做目标检测的同学应该已经接触过或者正要接触MMDetection,当你接触到MMDeteciton的时候,你会发现,它的代码有点奇怪:它不写train函数,不写eval函数,反而配置了一个runner,把训练过程配置到runner中,运行runner,就是运行train/eval函数.如下:上图第84行,就是对runner的运行。在运行之前的第62行,第78行,分别将模型model,优化器optimizer,日志logger,学习率调整策略配置入runner内。配置好后,运行runner就

2022-02-10 14:39:57 2510

原创 笔试算法刷题

原创:王稳钺资料来源:安老师一、刷题方法与面\笔试能力突破技巧平时刷题时,市面上大多数尤其以LeetCode为首很多的题库,以及很多人写的题解,非常习惯把算法分类,包括贪心、二分、动态规划等。其实这种分类是比较笼统的,如果在做题的时候,第一直觉先判断这是哪一类的题其实并不是一个很好的策略,千万不要去用这种归类的方式去做题。最好的办法是要培养一种题感,拿到一道题时,应该去想这道题应该往哪个方向去做,这种感觉是最重要的,而真正用什么算法去解决其实是第二步去思考的。同时,比如LeetCode中,题是非常多

2022-02-09 12:48:26 648 1

原创 OpenCV 编译安装教程

原创:PinkFeet本文全程科学上网。传统视觉算法时代,GPU 的作用没有现在明显。近些年来,随着深度学习方法崛起,卷积神经网络模块被嵌入到了 OpenCV,加上特定任务场景下的需求,GPU 的重要性越来越显著,计算机视觉从业人员用到 GPU 的机会越来越多。首先,简单介绍一下 GPU。英伟达最新的一块显卡上的核心可以达到上万个,每一个核心可以同时进行运算,从而达到大规模降低运行时间的效果,但每一个核心运行的内容逻辑不能很复杂,所以它天然地适合做矩阵运算,尤其是高维的矩阵运算。如果任务实时性要

2022-01-27 12:14:08 7435

原创 计算机视觉的前世今生

计算机视觉的前世今生原创:王稳钺资料来源:安健侨一、人工智能之智这个图非常有意思,这是按照时间线排布的不同画师画的朱元璋。如果了解历史,都知道他长得巨丑无比。他丑到什么程度呢?据说他的下巴可以当武器来用。而且他对自己的容貌还非常自信,经常喜欢找一些人给他画画。一开始他找了一个画师,画了第一个图。可能是因为太还原真实相貌了,第一个画师被斩了。然后朱元璋就换了一个画师,画成第二个图,明显可以看出皮肤光滑了一些。按照现在的技术来说,这是做了一个磨皮或者叫滤波。一种滤波方法是把图像当中的每一个像素点,都用

2022-01-25 10:54:51 2868

原创 跑通FaceNet人脸识别

原创:杨其泓一、前言FaceNet是一个十分经典的人脸识别模型,并且具有较好的性能,但要实现使用自己的数据进行人脸识别,还需要对模型进行重新训练。本文将介绍跑通一个简单FaceNet的全部流程,以及踩坑记录。二、方案技术路线人脸检测:使用 Dlib 中预先训练的模型检测面部; 人脸校准:使用 Dlib 的实时姿势估计与 OpenCV 的仿射变换来尝试使眼睛和下唇在每个图像上出现在相同位置; 卷积网络:使用深度神经网络把人脸图片映射为 128 维单位超球面上的一个点; 分类:

2022-01-20 14:39:20 3603

原创 元宇宙背后,你应该了解的人工智能核心技术

原创:王稳钺资料来源:单博一、真假元宇宙最近元宇宙这个概念非常火,网上的资料也是铺天盖地。但个人认为元宇宙这个概念里蹭热点的人非常的多,元宇宙还是处于概念为主的阶段。很多人说自己在做元宇宙,但其实都是真假难辨的状态。在元宇宙这个词出现之前,其实有很多相关的概念,比如虚拟现实( VR )、数字孪生、自动化等。数字孪生其实就是仿真建模,比如说我国的国产的飞机 919 等大型的机械化的电气化的设备在生产的过程中,都会涉及到跟数字孪生相关的一些数字仿真。元宇宙这个概念,其实应该更加理性去看待,关于元宇宙,人们

2022-01-18 18:44:23 1679

原创 图像分类快速入门:原理与代码

原创:悬鱼铭图像分类是人工智能中重要的基础任务,也是目标检测、图像分割、目标跟踪等视觉进阶任务的基础,是人工智能从业者必须掌握的知识点。本文通过以下几点阐述:图像分类有哪些落地场景?图像分类有哪些细分任务?图像分类如何实现?(有代码注释)图像分类的损失函数全文总共3千字左右,阅读时间10分钟!一、图像分类有哪些落地场景?图像分类是计算机视觉领域的基础任务,也是应用比较广泛的任务。图像分类用来解决“是什么”的问题,如给定一张图片,用标签描述图片的主要内容,下图中有三个企鹅,

2022-01-13 11:44:22 3891 1

原创 带你轻松写出第一篇优秀论文

原创:王稳钺资料来源:单博1. 认识学术论文1.1 国际权威出版社:国际上比较权威的学术出版机构有什么呢?如果看论文比较多,对于一些名词肯定都不陌生,比如爱思唯尔(Elsevier)、斯普林格出版社(Springer—Verlag)、电气与电子工程师协会(IEEE)、国际计算机协会(ACM)等等,这些都是非常权威的出版社。爱思唯尔的logo很容易被人记住——一颗苹果树下一位拿着剪刀的老人。爱思唯尔出版社的规模非常的大,每年在2500 种期刊发表的文章是超过 50 万篇,论文体量非常大,而且它除了学

2022-01-11 12:42:50 1568

原创 带你实现电商商品同款识别算法

电商本身就是用户体量非常多的业务场景,也是产生利润最多的一个业务场景。我们如何从淘宝找到同款商品呢?

2022-01-11 11:59:49 4600 1

原创 深度学习之模型压缩(剪枝、量化)

随着深度学习的发展,模型变得越来越复杂,随之而来的模型参数也越来越多,对于需要训练的模型硬件要求也越来越高。模型压缩技术就是为了解决模型使用成本的问题。通过提高推理速度,降低模型参数量和运算量。现在主流的模型压缩方法包含两大类:剪枝和量化。模型的剪枝是为了减少参数量和运算量,而量化是为了压缩数据的占用量。

2022-01-06 17:24:48 8902 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除