60、手写文字图像分类与图数据库研究

手写文字图像分类与图数据库研究

空间金字塔池化

在卷积神经网络(CNN)中,通常要求输入图像具有固定大小。对于大小与预设尺寸不同的输入图像,常见做法是进行缩放或裁剪。但对于文字图像,其大小和长宽比变化较大,裁剪不可行,而缩放可能会导致字符形状和笔画宽度出现严重的人为失真。因此,让CNN接受不同大小的输入图像很有必要。

关键在于,卷积层可以处理任意形状的输入并产生可变形状的输出,但全连接层需要固定大小的表示。所以,卷积部分和全连接部分之间的连接是关键。为解决这个问题,有研究提出了一种类似于空间金字塔范式的池化策略。

在卷积部分的最后一层执行的池化策略是对整个感受野进行金字塔池化。这样,空间金字塔池化层(SPP)的输出是具有固定维度的表示,可作为后续多层感知机(MLP)的输入。研究表明,这种池化策略不仅能让CNN接受不同大小的输入图像,还能提高整体性能。本文方法采用了3级空间金字塔最大池化,bin大小分别为4×4、2×2和1×1,这有助于在文字图像的不同位置和尺度上捕捉有意义的特征。

实验验证
Esposalles数据集

实验使用了Esposalles数据集,该数据集包含巴塞罗那大教堂档案中的历史手写婚姻记录。使用的是第69卷,包含174页手写内容,由一位作者在1617 - 1619年间用古加泰罗尼亚语书写。

数据集包含55632个文字图像,分为六个不同类别:“男性名字”、“女性名字”、“姓氏”、“地点”、“职业”和“其他”。为测试保留每个类别的300张图像,共1800张。去除小于30×30像素的文字图像后,得到53568个训练样本和1791个测试样本。训练数据集中存在严重的类别不平衡问题,“其他

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值