1.数据库下载:http://www.nlpr.ia.ac.cn/databases/handwriting/Home.html
2.字符库解压:先zip解压,再gnt解压:http://blog.youkuaiyun.com/zsjhxl/article/details/42294591
路径要进行改动,分测试集和训练集,桌面大小要够要有6GB大小,其余盘会出现编码问题
测试集属性(1241-1300共60项解压,花费半小时):
一共3755个文件夹,每个文件夹有59个png格式图,每张图大小5kb左右,共1.2G
训练集属性(1001-1240共240项解压,花费1.5小时):
一共3755个文件夹,每个文件夹有约239个png格式图,每张图大小5kb左右,共4.8G左右
附永久删除文件方法:
rm -rf 目录名字
-r 就是向下递归,管理有多少级目录,一并删除
-f 就是直接强行删除,不作任何提示的意思

这篇博客介绍了如何利用CASIA HWDB手写汉字库,通过Caffe来构建LMDB数据集。首先,下载并解压数据库,然后将测试集和训练集进行重命名以匹配标签。接着,在Caffe项目目录下创建Jaylee文件夹,存放数据,并在其中创建run文件夹。使用特定的Python脚本生成标签文件和lmdb数据,涉及文件重命名、标签对应和图片尺寸调整。最后,通过convert_imageset命令生成train_lmdb和test_lmdb文件,完成数据准备。
最低0.47元/天 解锁文章
240

被折叠的 条评论
为什么被折叠?



