【OCR炼丹】解析HIT-OR3C数据集online部分Python版完整代码

本文介绍了在处理OCR任务时,作者在解析HIT-OR3C数据集的在线部分遇到的三个问题,包括数据存储形式、label解析的误导以及文件格式规范与源码不一致的坑。详细描述了解决这些问题的过程,特别是如何从labels.txt文件正确解析联机字符数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近开始炼手写体汉字识别方面的丹,网上找了下数据集,主要有:

  1. 中科院自动化研究所开源的CASIA数据集(下载链接地址
  2. 哈工大开源的HIT-OR3C数据集(下载链接地址

这俩数据集的存储形式与之前接触过的一些共有数据集的保存形式有很大的区别,对于C、C++不是很熟用Python较多的我来说踩了不少的坑(还都是优快云、知乎、Google都搜不到的巨坑),造福下后来人吧。

首先,明确一点,由于博主此次研究的主要以联机手写体识别为主,所以主要重点关注的是CASIA数据集的OLHWDB数据以及HIT-OR3C的Online Characters


第一坑:数据存储形式不了解

CASIA数据集其offline部分的字符集(.gnt格式数据)解析网上有相关python解析代码,但是online部分的字符集(.pot格式数据集)没找到有大神开源的解析代码。发邮件询问了数据集的作者,了解到了.pot格式的数据集要按照一定的规则依次读取相应的字节来解析(规则详见官网),并且作者还慷慨地提供了官方可视化工具的C++源码(让我对照着用Python去解析,奈何C++水平不够卡在最后一步,如果后续解析成功了会开源解析代码)

由于HIT-OR3C数据集的online部分字符集的存储形式与CASIA的OLHWDB存

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值