【TrOCR】用Transformer和torch库实现TrOCR模型

项目结构:

TrOCR/
├── config.py               # 所有配置参数(路径、超参数等)
├── dataset.py              # 数据集类 + 数据增强(合并 data_augmentation)
├── model.py                # 模型加载与配置
├── utils.py                # 通用工具(含日志功能,合并 logger.py)
├── train.py                # 训练逻辑 + 入口(合并 trainer.py)
├── predict.py              # 推理接口 + 入口(合并 inference.py)
├── evaluate.py             # 评估指标 + 入口(合并 metrics.py)
├── requirements.txt        # 依赖库
├── README.md               # 项目说明
├── data/                   # 数据集
│   ├── train/(images + labels.json)
│   ├── val/(images + labels.json)
│   └── test/(images + labels.json)
├── models/                 # 保存训练好的模型
└── logs/                   # 训练日志、评估报告

数据集的数据结构

我的数据集路径:C:\Users\Virgil\Desktop\dataetOCR\ChineseOcr2k,目录下有train和val两个文件夹,分别是images和labels.json。

标签JSON文件的数据结构:labels.json内容是这样的:

    [
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值