Abstract
the proposed ACE loss function exhibits two noteworthy properties:
- it can be directly applied for 2D prediction by flattening the 2D prediction into 1D prediction as the input
- it requires only characters and their numbers in the sequence annotation for supervision
对于第一点,这个似乎可以来解决任意排列的文本,论文中做的是1D和2D,颠覆了之前的先定位后识别的pipeline,看起来确实不错。
对于第二点更少的监督,都有个问题是,如果gt都没有序列信息,那么网络能学习到序列信息吗?ACE loss让网络失去了处理序列信息的能力吗?
Related Work
- Connectionist temporal classification: CNN-LSTM-CTC
- Attention mechanism: use attention mechansim locate the character.
Aggregation Cross-Entropy
对于识别任务,loss函数可以抽象成下面的形式 S S S 为标注, I I I 为输入, ω \omega ω为网络参数, Q Q Q 训练数据。
L ( ω ) = − ∑ ( I , s ) ∈ Q l o g P ( S ∣ I ; ω ) = − ∑ ( I , S ) ∈ Q ∑ l = 1 L l o g P ( S l ∣ l ; ω ) L(\omega)=-\sum_{(I,s)\in Q}logP(S\mid I;\omega)\\ =-\sum_{(I,S)\in Q}{\sum_{l=1}^{L}logP(S_l\mid l;\omega)} L(ω)=−(I,s)∈Q∑logP(<

ACE loss函数简化了文本识别任务,直接处理2D预测,仅需字符和数量的监督。它避免了精确的序列对齐,但可能限制了序列信息的学习。相关工作包括CTC和注意力机制。实现中,2D图像的网络输出对应像素点,通过FCN获取。结论提出疑问,实际效果待验证,探索与序列模型结合的可能性。
最低0.47元/天 解锁文章
3057

被折叠的 条评论
为什么被折叠?



