基于caffe和casiaHWDB手写体汉字库的LMDB数据准备

这篇博客介绍了如何利用CASIA HWDB手写汉字库,通过Caffe来构建LMDB数据集。首先,下载并解压数据库,然后将测试集和训练集进行重命名以匹配标签。接着,在Caffe项目目录下创建Jaylee文件夹,存放数据,并在其中创建run文件夹。使用特定的Python脚本生成标签文件和lmdb数据,涉及文件重命名、标签对应和图片尺寸调整。最后,通过convert_imageset命令生成train_lmdb和test_lmdb文件,完成数据准备。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

奋斗1.数据库下载:http://www.nlpr.ia.ac.cn/databases/handwriting/Home.html

奋斗2.字符库解压:先zip解压,再gnt解压:http://blog.youkuaiyun.com/zsjhxl/article/details/42294591

路径要进行改动,分测试集和训练集,桌面大小要够要有6GB大小,其余盘会出现编码问题

测试集属性(1241-1300共60项解压,花费半小时):

一共3755个文件夹,每个文件夹有59个png格式图,每张图大小5kb左右,共1.2G 

训练集属性(1001-1240共240项解压,花费1.5小时)

一共3755个文件夹,每个文件夹有约239个png格式图,每张图大小5kb左右,共4.8G左右 

附永久删除文件方法:
rm -rf 目录名字
-r 就是向下递归,管理有多少级目录,一并删除
-f 就是直接强行删除,不作任何提示的意思

中文字体识别是一项很有挑战性的任务,需要使用深度学习模型来进行解决。在这里,我将向你介绍如何使用PyTorch实现中文字体识别,具体地针对隶书行楷两种字体进行识别。 首先,我们需要准备训练数据。可以从公开数据集或者自己手动标注数据来获取。在这里,我们使用CASIA HWDB 1.1数据集,其中包含了3755个汉字,每个汉字都有隶书行楷两种字体,共计7510张图片。 接下来,我们需要对数据进行预处理。首先,需要将图片转换为灰度图像,并将其小调整为固定的小。然后,需要将像素值归一化到0到1之间,以便于神经网络的训练。最后,将数据划分为训练集测试集。 接下来,我们将使用PyTorch搭建一个卷积神经网络(CNN)来进行训练。这里我们使用了包含2个卷积层2个全连接层的简单CNN模型。在卷积层中,我们使用了不同的卷积核池化操作来提取特征。在全连接层中,我们使用了ReLU激活函数来加入非线性特性。 在模型训练中,我们使用交叉熵作为损失函数,并使用随机梯度下降法(SGD)来进行优化。我们将训练集测试集分别输入到模型中进行训练测试,并记录准确率损失值。 最后,我们可以使用训练好的模型对新的图片进行预测。我们将输入图片传入模型中,模型将输出每个汉字对应隶书行楷字体的概率值,我们可以选择概率值最的那个字体作为预测结果。 以上就是使用PyTorch实现中文字体识别的基本步骤。如果你想深入了解该任务,可以进一步研究相关的论文代码实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值