项目结构:
TrOCR/
├── config.py # 所有配置参数(路径、超参数等)
├── dataset.py # 数据集类 + 数据增强(合并 data_augmentation)
├── model.py # 模型加载与配置
├── utils.py # 通用工具(含日志功能,合并 logger.py)
├── train.py # 训练逻辑 + 入口(合并 trainer.py)
├── predict.py # 推理接口 + 入口(合并 inference.py)
├── evaluate.py # 评估指标 + 入口(合并 metrics.py)
├── requirements.txt # 依赖库
├── README.md # 项目说明
├── data/ # 数据集
│ ├── train/(images + labels.json)
│ ├── val/(images + labels.json)
│ └── test/(images + labels.json)
├── models/ # 保存训练好的模型
└── logs/ # 训练日志、评估报告
数据集的数据结构
我的数据集路径:C:\Users\Virgil\Desktop\dataetOCR\ChineseOcr2k,目录下有train和val两个文件夹,分别是images和labels.json。
标签JSON文件的数据结构:labels.json内容是这样的:
[

最低0.47元/天 解锁文章
1006

被折叠的 条评论
为什么被折叠?



