上周使用onnxruntime跑通padlleocr的c++推理模型后,本周开始尝试训练padlleocr的模型,使用官方的标注工具标注完数据集并且用官方的数据集分割代码生成训练数据后,发现在训练过程中出现“IndexError: list index out of range”的错误,在优快云和padlleocr官方Issues查找解决方案,发现很多人出现相同的问题,但是并没有给出完整的解决方案,经过一番折腾,终于解决了这个问题。解决方案如下,修改官方gen_ocr_train_val_test.py文件中如下部分代码:
修改前:
修改后:
同时注意修改配置文件的内容,例如: