PaddleOCR使用笔记之配置文件的详细解释

本文详细介绍了深度学习模型训练中常用的优化器配置参数,包括Adam、Momentum等优化器的设置,如学习率、指数衰减率、正则化方式等,并展示了如何通过配置文件调整这些参数以优化模型训练效果。同时,还提及了模型保存、评估指标、数据集配置等相关细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

可选参数列表

以下列表可以通过--help查看

FLAG支持脚本用途默认值备注
-cALL指定配置文件None配置模块说明请参考 参数介绍
-oALL设置配置文件里的参数内容None使用-o配置相较于-c选择的配置文件具有更高的优先级。例如:-o Global.use_gpu=false

配置文件参数介绍

rec_chinese_lite_train_v2.0.yml 为例

Global-全局参数配置

字段用途默认值备注
use_gpu设置代码是否在gpu运行true\
epoch_num最大训练epoch数500\
log_smooth_windowlog队列长度,每次打印输出队列里的中间值20\
print_batch_step设置打印log间隔10\
save_model_dir设置模型保存路径output/{算法名称}\
save_epoch_step设置模型保存间隔3\
eval_batch_step设置模型评估间隔2000 或 [1000, 2000]2000 表示每2000次迭代评估一次,[1000, 2000]表示从1000次迭代开始,每2000次评估一次
cal_metric_during_train设置是否在训练过程中评估指标,此时评估的是模型在当前batch下的指标true\
load_static_weights设置预训练模型是否是静态图模式保存(目前仅检测算法需要)true\
pretrained_model设置加载预训练模型路径./pretrain_models/CRNN/best_accuracy\
checkpoints加载模型参数路径None用于中断后加载参数继续训练
use_visualdl设置是否启用visualdl进行可视化log展示False教程地址
infer_img设置预测图像路径或文件夹路径./infer_img\
character_dict_path设置字典路径./ppocr/utils/ppocr_keys_v1.txt\
max_text_length设置文本最大长度25\
character_type设置字符类型chen/ch, en时将使用默认dict,ch时使用自定义dict
use_space_char设置是否识别空格True仅在 character_type=ch 时支持空格
label_list设置方向分类器支持的角度[‘0’,‘180’]仅在方向分类器中生效
save_res_path设置检测模型的结果保存地址./output/det_db/predicts_db.txt仅在检测模型中生效

Optimizer-优化器参数配置

字段用途默认值备注
name优化器类名Adam目前支持Momentum,Adam,RMSProp, 见ppocr/optimizer/optimizer.py
beta1设置一阶矩估计的指数衰减率0.9\
beta2设置二阶矩估计的指数衰减率0.999\
clip_norm所允许的二范数最大值\
lr设置学习率decay方式-\
name学习率decay类名Cosine目前支持Linear,Cosine,Step,Piecewise, 见ppocr/optimizer/learning_rate.py
learning_rate基础学习率0.001\
regularizer设置网络正则化方式-\
name正则化类名L2目前支持L1,L2, 见ppocr/optimizer/regularizer.py
factor学习率衰减系数0.00004\

Architecture-网络结构参数配置

在ppocr中,网络被划分为Transform,Backbone,Neck和Head四个阶段

字段用途默认值备注
model_type网络类型rec目前支持rec,det,cls
algorithm模型名称CRNN支持列表见algorithm_overview
Transform设置变换方式-目前仅rec类型的算法支持, 具体见ppocr/modeling/transform
name变换方式类名TPS目前支持TPS
num_fiducialTPS控制点数20上下边各十个
loc_lr定位网络学习率0.1\
model_name定位网络大小small目前支持small,large
Backbone设置网络backbone类名-具体见ppocr/modeling/backbones
namebackbone类名ResNet目前支持MobileNetV3,ResNet
layersresnet层数34支持18,34,50,101,152,200
model_nameMobileNetV3 网络大小small支持small,large
Neck设置网络neck-具体见ppocr/modeling/necks
nameneck类名SequenceEncoder目前支持SequenceEncoder,DBFPN
encoder_typeSequenceEncoder编码器类型rnn支持reshape,fc,rnn
hidden_sizernn内部单元数48\
out_channelsDBFPN输出通道数256\
Head设置网络Head-具体见ppocr/modeling/heads
namehead类名CTCHead目前支持CTCHead,DBHead,ClsHead
fc_decayCTCHead正则化系数0.0004\
kDBHead二值化系数50\
class_dimClsHead输出分类数2\

Loss-损失参数配置

字段用途默认值备注
name网络loss类名CTCLoss目前支持CTCLoss,DBLoss,ClsLoss
balance_lossDBLossloss中是否对正负样本数量进行均衡(使用OHEM)True\
ohem_ratioDBLossloss中的OHEM的负正样本比例3\
main_loss_typeDBLossloss中shrink_map所采用的的lossDiceLoss支持DiceLoss,BCELoss
alphaDBLossloss中shrink_map_loss的系数5\
betaDBLossloss中threshold_map_loss的系数10\

PostProcess-后处理参数配置

字段用途默认值备注
name后处理类名CTCLabelDecode目前支持CTCLoss,AttnLabelDecode,DBPostProcess,ClsPostProcess
threshDBPostProcess中分割图进行二值化的阈值0.3\
box_threshDBPostProcess中对输出框进行过滤的阈值,低于此阈值的框不会输出0.7\
max_candidatesDBPostProcess中输出的最大文本框数量1000
unclip_ratioDBPostProcess中对文本框进行放大的比例2.0\

Metric-模型评估参数配置

字段用途默认值备注
name指标评估方法名称CTCLabelDecode目前支持DetMetric,RecMetric,ClsMetric
main_indicator主要指标,用于选取最优模型acc对于检测方法为hmean,识别和分类方法为acc

Dataset-数据集参数配置

字段用途默认值备注
dataset每次迭代返回一个样本--
namedataset类名SimpleDataSet目前支持SimpleDataSetLMDBDateSet
data_dir数据集图片存放路径./train_data\
label_file_list数据标签路径["./train_data/train_list.txt"]dataset为LMDBDateSet时不需要此参数
ratio_list数据集的比例[1.0]若label_file_list中有两个train_list,且ratio_list为[0.4,0.6],则从train_list1中采样40%,从train_list2中采样60%组合整个dataset
transforms对图片和标签进行变换的方法列表[DecodeImage,CTCLabelEncode,RecResizeImg,KeepKeys]ppocr/data/imaug
loaderdataloader相关-
shuffle每个epoch是否将数据集顺序打乱True\
batch_size_per_card训练时单卡batch size256\
drop_last是否丢弃因数据集样本数不能被 batch_size 整除而产生的最后一个不完整的mini-batchTrue\
num_workers用于加载数据的子进程个数,若为0即为不开启子进程,在主进程中进行数据加载8\
### 配置 PaddleOCR 的运行环境 #### 创建虚拟环境 为了确保依赖项不会与其他项目冲突,建议在 Anaconda 中创建一个新的虚拟环境。以下是具体操作方法: ```bash conda create --name paddleocr python=3.8 ``` 激活该虚拟环境以便后续安装所需的依赖包。 ```bash conda activate paddleocr ``` 此命令会启动名为 `paddleocr` 的新环境[^3]。 #### 安装必要的软件包 进入克隆下来的 PaddleOCR 文件夹,并按照官方文档中的说明来安装所需的所有 Python 库。 ```bash pip install -r requirements.txt ``` 这一步骤将自动完成大部分基础库的安装工作,比如 NumPy 和 PyYAML 等[^1]。 对于 GPU 用户来说,还需要额外安装支持 CUDA 的版本以及 cuDNN 相关驱动程序。可以参照如下指令来进行设置(假设使用的是 CUDA 11.x): ```bash pip install paddlepaddle-gpu==2.4.0.post110 ``` 而对于 CPU-only 场景,则可以直接采用简化方式: ```bash pip install paddlepaddle ``` 上述两步分别针对不同硬件条件进行了适配处理[^4]。 #### 下载预测模型文件 除了基本框架外,实际应用时往往需要用到预训练好的权重参数或者完整的推理引擎二进制文件集合。这些资源可以从官方网站提供的链接地址处获取到最新稳定发行版压缩包形式的数据集。 例如,在某些特定场景下可能需要单独加载中文字符识别专用模块;此时就需要手动指定路径指向本地解压后的目录结构内部对应子文件夹位置作为输入源之一[^2]。 最后验证整个流程是否正常运作无误非常重要——可以通过执行样例脚本来观察输出结果是否符合预期目标值范围之内从而判断整体搭建过程的成功与否情况。 ```python from ppocr.utils.utility import initial_logger logger = initial_logger() print('PaddleOCR setup complete.') ``` 如果没有任何错误提示信息显示出来即表明当前系统已具备运行能力。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值