打造自己的RAG解析大模型:表格数据标注的三条黄金规则

本期我们将聚焦于使用 PPOCRLabel 进行表格标注的三条“黄金规则”。遵循这些规则,可以确保生成高质量的训练数据集,为构建高精度的文档表格识别模型奠定坚实基础。掌握这些技巧,将帮助我们进一步提升垂直领域模型的表格识别精度。

PPOCRLabel全面介绍

PPOCRLabel是一款适用于OCR领域的半自动化图形标注工具,内置PP-OCR模型对数据自动标注和重新识别。使用Python3和PyQT5编写,支持矩形框标注、表格标注、不规则文本标注、关键信息标注模式,导出格式可直接用于PaddleOCR检测和识别模型的训练。

一、PPOCRLabel的安装与使用
  1. 建立Anaconda环境:首先创建一个新的Python环境,然后激活该环境。具体命令如下:
conda create --name=ppocrlabel python=3.10  
conda activate ppocrlabel  

\2. PPOCRLabel的安装方式有两种:如果希望进行二次开发或使用最新版本,可以直接从其 GitHub 仓库克隆代码进行安装;如果只需要标准功能,也可以使用官方提供的 .whl 安装包,更为便捷。对于开发者来说,从源码安装不仅能快速获取最新更新,还可以自由定制和优化代码,以满足特定业务需求。PPOCRLabel的灵活性使其适合各种 OCR 场景的标注任务,无论是基础用户还是高级开发者,都能找到适合的安装方式。

具体步骤为:

  • 安装PaddlePaddle

pip3 install --upgrade pip
# 如果您的机器是CPU,请运行以下命令安装
python3 -m pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 通过whl包安装与运行
pip3 install PPOCRLabel  # 安装
# 选择标签模式来启动
PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签

启动后,图形界面如下。

img

二、PPOCRLabel的功能与标注方式
PPOCRLabel支持多种标注方式,包括但不限于矩形标注、多点标注。这些标注方式可以满足不同应用场景的需求。
  1. 矩形标注:适用于标注简单的矩形区域,如常规标注、表格标注等。
  2. 多点标注:适用于标注不规则文本、关键信息标注等。

其中,不规则文本的重点应用是公章中的文字标注,应用场景广泛。

三、标注结果的导出与格式转换
PPOCRLabel 支持多种格式的输出,主要包括 Paddle 格式的表格数据、关键信息标注、文本检测和文本识别格式。

PPOCRLabel实际操作

接下来,我们将以表格标注为例,详细讲解如何使用 PPOCRLabel 标注表格训练数据,并介绍几个提升标注质量的黄金规则。表格标注是一项精细的工作,准确的标注是构建高质量训练数据的关键。通过遵循 PPOCRLabel 的最佳实践,用户可以确保标注的表格数据在训练时更加准确,进而提升模型的整体识别效果。

一、表格标注

表格标注针对表格的结构化提取,将图片中的表格转换为Excel格式,因此标注时需要配合外部软件打开Excel同时完成。在PPOCRLabel软件中完成表格中的文字信息标注(文字与位置)、在Excel文件中完成表格结构信息标注。

推荐的步骤为:

  1. 表格识别:打开表格图片后,点击软件右上角 “表格识别” 按钮,软件调用PP-Structure中的表格识别模型,自动为表格打标签,同时弹出Excel

    img

  2. 更改标注结果:以表格中的单元格为单位增加标注框(即一个单元格内的文字都标记为一个框)。标注框上鼠标右键后点击 单元格重识别 可利用模型自动识别单元格内的文字。

    注意:如果表格中存在空白单元格,同样需要使用一个标注框将其标出,使得单元格总数与图像中保持一致,红色框圈住的为补充的空白单元格。

    img

  3. 调整单元格顺序:点击软件视图-显示框编号 打开标注框序号,在软件界面右侧拖动 识别结果 一栏下的所有结果,使得标注框编号按照从左到右,从上到下的顺序排列,按行依次标注。

  4. 标注表格结构:在外部Excel软件中,将存在文字的单元格标记为任意标识符(如 1 ),保证Excel中的单元格合并情况与原图相同即可(即不需要Excel中的单元格文字与图片中的文字完全相同)

  5. 导出JSON格式:关闭所有表格图像对应的Excel,点击 文件-导出表格标注,生成gt.txt标注文件。

二、表格标注黄金规则

1、只需标注表格中包含文字的行和列,即使行列间存在较大空隙,也无需添加空白行。

2、单元格标注顺序需按照以下示例图片所示的顺序进行,确保一致性。

img

3、Excel 文件用于调整表格结构,必须保持与原表格一致。保存前应删除多余的行或列,否则在训练时可能导致错误。

写在最后

今天我们详细讲解了如何使用 PPOCRLabel 进行表格标注,并着重介绍了三条提升标注质量的黄金规则。表格标注虽然是一项耗时费力的工作,但它在构建精准的文档识别模型中至关重要。然而,表格识别模型的训练并非一蹴而就,需要多次尝试、不断优化数据集和训练参数,以逐步提升识别效果。尽管过程艰辛,但只要遵循最佳实践并坚持优化,最终能构建出符合业务需求的高质量模型,为后续应用奠定坚实基础。

备注:训练效果与训练集的数据量、标注质量以及训练轮数密切相关。更高质量和更丰富的标注数据有助于模型的学习,而适当增加训练轮数则可以进一步提升模型的准确性。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值