中文ocr 数据集

最新推荐文章于 2025-11-17 14:52:43 发布

原创

最新推荐文章于 2025-11-17 14:52:43 发布 · 1w 阅读

62 ·

CC 4.0 BY-SA版权

本文介绍了多个中文场景文本识别数据集，包括CTW、RCTW-17、ICPRMWI2018、Total-Text、GoogleFSNS、COCO-TEXT、SyntheticDataforTextLocalisation等，涵盖了不同环境下的中文文本，适用于训练和评估文本识别模型。

一、Chinese Text in the Wild(CTW)

该数据集包含32285张图像，1018402个中文字符(来自于腾讯街景), 包含平面文本，凸起文本，城市文本，农村文本，低亮度文本，远处文本，部分遮挡文本。图像大小2048*2048，数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像，812872个汉字)，测试集(3269张图像，103519个汉字)，验证集(3129张图像，103519个汉字)。

文献链接：https://arxiv.org/pdf/1803.00085.pdf 
数据集下载地址：https://ctwdataset.github.io/

二、Reading Chinese Text in the Wild(RCTW-17)

该数据集包含12263张图像，训练集8034张，测试集4229张，共11.4GB。大部分图像由手机相机拍摄，含有少量的屏幕截图，图像中包含中文文本与少量英文文本。图像分辨率大小不等。

http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
文献：http://arxiv.org/pdf/1708.09585v2

三、ICPR MWI 2018 挑战赛

大赛提供20000张图像作为数据集，其中50%作为训练集，50%作为测试集。主要由合成图像，产品描述，网络广告构成。该数据集数据量充分，中英文混合，涵盖数十种字体，字体大小不一，多种版式，背景复杂。文件大小为2GB。

https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_re

最低0.47元/天解锁文章