CASIA -HWDB2.0-2.2和OLHWDB2.0-2.2数据集解析

本文介绍了CASIA的HWDB2.0-2.2和OLHWDB2.0-2.2数据集,用于手写汉字识别。提供了数据集的下载地址,详细解释了数据集的内容,并给出了将DGRL和WPTT文件转换为图像和标签的代码示例,以支持模型训练和测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下载地址

http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html

数据集解释

HWDB2.0-2.2是一个手写汉字文本识别数据集,包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个DGRL文件,每个DGRL文件包含多个文本行。其中,HWDB2.0包含了大约37,000个汉字,HWDB2.1包含了大约45,000个汉字,HWDB2.2包含了大约52,000个汉字。这些数据集可以用于训练和测试手写汉字识别模型。

OLHWDB2.0-2.2是一个在线手写汉字识别数据集,也包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个WPTT文件,每个WPTT文件包含多个文本行。其中,OLHWDB2.0包含了大约1,200个汉字,OLHWDB2.1包含了大约2,400个汉字,OLHWDB2.2包含了大约3,600个汉字。这些数据集可以用于训练和测试在线手写汉字识别模型。

HWDB解析dgrl为图像和txt 标签

在这里插入图片描述

</

### CASIA-OLHWDB 数据集介绍 CASIA-OLHWDB 是中国科学院自动化研究所(NLPR)发布的一个在线手写中文数据库,旨在支持手写识别的研究工作。该数据集包含了大量由不同作者书写的汉字样本,每个样本记录了书写过程中的时间序列坐标信息。 #### 数据结构特点 每个页面存储在一个以作者索引页码命名的 `.wptt` 文件中[^2]。这些文件不仅保存了字符图像本身,还保留了书写过程中产生的动态特征,如笔画顺序、速度等重要属性,这对于理解书写习惯具有重要意义。 #### 样本长度计算公式 对于单个样本而言,其长度遵循特定模式: \[ \text{Sample Length} = 4+4+4+\text{strkNum}\times(2+\text{strkPtNum}\times4)+2+\text{lineNum}\times(2+2\times\text{lineStrkNum}+2+\text{lineCharNum}\times\text{codeLength}) \] 其中 `strkNum`, `strkPtNum`, `lineNum`, `lineStrkNum`, `lineCharNum` 分别表示笔划数量、每条笔划上的点数、行数、各行内的笔划数目以及各字符编码长度;而常量项则代表头部信息其他固定字段占用的空间大小。 --- ### 下载指南 访问官方网站获取最新版本的数据集资源:<http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html> 注意避免将下载后的压缩包放置于 `/var/tmp` 或者 `/tmp` 这样的临时目录内,因为 Linux 系统可能会定期清除这些位置下的文件[^3]。建议选择更稳定的储存路径来保障数据安全。 安装必要的工具用于解压 ZIP 归档文件,在终端执行命令: ```bash sudo apt install unzip ``` --- ### 使用说明 解析 `.wptt` 文件并提取有用信息的过程涉及到了对二进制流的操作。具体实现可以参考 Python 版本的完整代码案例[^1]: ```python import struct from matplotlib import pyplot as plt def parse_wptt(file_path): with open(file_path, 'rb') as f: # Read header information and other fixed-length parts... while True: try: strk_num = int.from_bytes(f.read(2), byteorder='little') for _ in range(strk_num): points_count = int.from_bytes(f.read(4), byteorder='little') coordinates = [] for __ in range(points_count): x = int.from_bytes(f.read(4), byteorder='little') y = int.from_bytes(f.read(4), byteorder='little') coordinates.append((x,y)) yield coordinates except Exception as e: break for stroke in parse_wptt('example.wptt'): xs, ys = zip(*stroke) plt.plot(xs, ys) plt.gca().invert_yaxis() plt.show() ``` 此脚本展示了如何遍历所有笔画并将它们可视化为彩色线条图。每次迭代都会创建一个新的绘图对象,从而确保相邻笔触之间不会发生混淆。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图像处理大大大大大牛啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值