OpenMMLab AI实战营基础班第一讲笔记-优快云博客

计算机视觉

计算机视觉是一门让计算机学会“看”的学科，研究如何自动理解图像和视频中的内容

提供统一先进的底层架构，覆盖计算机视觉众多方向，提供最经典、最前沿的算法支持，提供统一的基准和开箱即用的工作

开源历程

OpenMMLab2.0

训练-部署

MMDection

MMDection3D

MMClassification

MMSegmentation

MMPose&MMHuman3D

MMTracking

MMAction2

MMOCR

MMEditing

请添加图片描述
激活层：ReLu是最常用的非线性激活函数

池化层
最大池化
$\rm{Y}[h,w,c]=\max_{1\leq i, j\leq k}\rm{X}[sh+i, sw+j, c]$
平均池化
$\rm{Y}[h,w,c]=\frac{1}{k^2}\sum_{1\leq i, j\leq k}\rm{X}[sh+i, sw+j, c]$
全连接层
全连接层通过矩阵乘法将输入特征 $\rm{X}\in \mathbb{R}^N$ 映射为输出特征 $\rm{Y}\in \mathbb{R}^M$
$\rm{Y}=WX+b$
全连接层包含可学习参数 $W\in \mathbb{R}^{M\times N}, b\in \mathbb{R}^M$
概率输出层
概率输出层 $S:\mathbb{R}^k\rightarrow[0,1]^k$ 将网络输出转换为概率向量 $p (k ∣ x) = S (h (x; w))$
二分类，全连接层输出标量 $z\in\mathbb{R}$ ，通过Sigmoid函数计算正类的概率
$p(y=1|x)=\frac{1}{1+exp(-z)}$
多分类，全连接层输出k维向量 $z\in\mathbb{R}^k$ ，通过Softmax函数计算k类的概率
$p(y=k|x)=\frac{expz_k}{\sum_{i=1}^{k}exp(z_k)}$