论文解读 (01)

最新推荐文章于 2024-11-08 20:34:01 发布

原创最新推荐文章于 2024-11-08 20:34:01 发布 · 458 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #论文解读 #computer vision #人工智能 #scene text recognition

计算机视觉专栏收录该内容

6 篇文章

订阅专栏

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Baoguang Shi, Xiang Bai and Cong Yao

该论文提出了一种CRNN的架构，用于基于图像的场景文本识别（scene text recognition），该架构如下：
在这里插入图片描述

先使用CNN提取input image的特征图，然后所有特征图从左到右地将每一列元素串联，得到一个特征向量 $x_i$ （即一帧，一个像素的宽度, $i∈{1,...,T}i\in\left\{1,...,T\right\}$ ）。

原文摘要：This means the i-th feature vector is the concatenation of the i-th columns of all the maps. The width of each column in our settings is fixed to single pixel

将每一个特征向量 $x_i$ 整合成序列，CNN最终得到一个特征序列 $x=(x1,x2,...,xi,...,xT)x=\left(x_1,x_2,...,x_i,...,x_T \right)$
在这里插入图片描述
CNN所提取的特征序列 $x=(x1,x2,...,xi,...,xT)x=\left(x_1,x_2,...,x_i,...,x_T \right)$ 中的每一帧特征向量都对应则原始图像中的一块感受野（receptive field）。

*对于英文scene text而言，一共有26个字母 $(a−z)\left(a-z \right)$ .
将该长度为 $T$ 帧特征序列，将其输入至双向深度LSTM网络中，计算出每一帧的各个字母的概率分布。

特征序列 $x=(x1,x2,...,xi,...,xT)x=\left(x_1,x_2,...,x_i,...,x_T \right)$ 在经过LSTM的过程可以抽象为如下映射:

在这里插入图片描述
（由于英文有26个字母，再算上一个空白字符，故 $n = 27$ ）
则LSTM的输出为：

$y$ 作为LSTM的输出序列，其与输入序列 $x$ 一样都有 $T$ 帧： $y=(y1,...,yt,...,yT),t≤Ty=\left(y_1,...,y_t,...,y_T\right), t\leq{T}$
对于每一帧输出向量 $y_t$ 的大小为 $n×1n\times{1}$ ,输出向量 $y_t$ 中的每个元素为该位置上的对于的字母的概率。
$y=\begin{bmatrix} P(a) & P(a) & \cdots &P(a) \\ P(b) & P(b) & \cdots & P(b) \\ P(c) & P(c) & \cdots & P(c) \\ \vdots & \vdots & \cdots & \vdots\\ P(z) & P(z) & \cdots & P(z) \\ P(-) & P(-) & \cdots & P(-) \\ \end{bmatrix}$
其中 $P (-)$ 表示该帧识别为空白字符的概率。
设字母集合为 $L={a,b,c,...,z}L=\left\{a,b,c,...,z\right\}$ ，则 $ykt,k∈Ly_k^t, k\in{L}$ 表示第t帧被判为字母 $k$ 的概率。
对于字母集合 $L={a,b,c,...,z}L=\left\{a,b,c,...,z\right\}$ ，定义 $L^T$ 为所有可能的长度为 $T$ 的字母序列所组成的集合，设
$∣L∣\begin{vmatrix} L \end{vmatrix}$ 为集合 $L$ 的大小，则有：
$\begin{vmatrix} L \end{vmatrix} = 26, \begin{vmatrix} L^T \end{vmatrix} = 26^T$
设加入空白字符后的新集合为 $L\bigcup{\left\{blank\right\}}$ ,则同样有：
$\begin{vmatrix} L' \end{vmatrix} = 27, \begin{vmatrix} L'^T \end{vmatrix} = 27^T$

对于序列集合 $L′TL'^T$ 中的任一个序列 $π\pi$ 而言,即 $∀π∈L′T\forall{\pi}\in{ L'^T }$ ，它都是一个 $T$ 帧长度的序列，其每一帧为 $L^{'}$ 中27个字符的其中一个，如果基于LSTM模型输出的各帧字母的概率分布序列 $y=(y1,...,yt,...,yT),t≤Ty=\left(y_1,...,y_t,...,y_T\right), t\leq{T}$ 来计算 $L′TL'^T$ 中所有可能的字符序列 $π\pi$ 的概率，则其概率为为：
$P(\pi|x) = \prod_{i=1}^T y_{{\pi}_t}^t, \forall{\pi}\in{ L'^T }$

假如对scene text image “hello”的最终识别得到的序列为“_hh_e_l_ll_oo”，需要将该序列中重复的字母以及空白字符"_"去除，故引入一个“去重去空”函数映射: $B\mathscr{B}$ ，即：
$h\;h e\;l\;ll\;oo \xrightarrow{\mathscr{B}} hello$
设 $l=B(π)l=\mathscr{B}(\pi)$ , $l$ 为去重去空后的字符序列， $π∈L′T\pi\in{L'^T}$ 为未去重去空的字符序列， $l$ 可以是一个或者多个 $π\pi$ 作 $B\mathscr{B}$ 映射后的结果。
因此基于LSTM模型输出的各帧字母的概率分布序列 $y=(y1,...,yt,...,yT),t≤Ty=\left(y_1,...,y_t,...,y_T\right), t\leq{T}$ ，某个字符序列可能出现的概率为：
在这里插入图片描述

*转录的定义：从LSTM输出的各帧字母的概率分布序列 $y=(y1,...,yt,...,yT),t≤Ty=\left(y_1,...,y_t,...,y_T\right), t\leq{T}$ ，判决出最终输出字符序列结果的过程，字符序列结果是经 $l=B(π)l=\mathscr{B}(\pi)$ 去重去空的结果。

1. 对于无词典的转录

对于最终输出的字符序列没有范围的限定，故最终识别的结果可以直接取 $y=(y1,...,yt,...,yT),t≤Ty=\left(y_1,...,y_t,...,y_T\right), t\leq{T}$ 的各帧中概率最大的字母所组成的序列的 $B\mathscr{B}$ 映射，即：
$l^* = \mathscr{B}(\rm{argmax}_{\pi}P({\pi}|y))$

2. 对于有词典约束的转录

对于最终输出的字符序列（转录的结果）必须存在于词典当中。
<1> 设词典集合为 $D$ ，对于 $D$ 中所有的序列 $l$ ，可以取是的 $P (l ∣ y)$ 最大的序列作为最终的识别结果，即：
$l^* = \rm{argmax}_{l\in{D}}P(l|y)$
但是这种做法需对整个词典遍历一遍，耗时巨大。
<2> 一般情况下，无词典转录所得到的结果 $l^{'}$ 已经较为接近真实结果了，故可以用BK_tree算法寻找出 $l^{'}$ 在词典中与之最邻近的 $δ\delta$ 个字符序列，取其中概率 $P (l ∣ y)$ 最大的作为最终识别结果 $l^*$ ,即：
在这里插入图片描述