25、提升PDF批量处理准确性与手写内容洞察可视化

最新推荐文章于 2025-09-11 14:31:50 发布

algae

最新推荐文章于 2025-09-11 14:31:50 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：用AWS AI解锁文本价值文章标签： PDF批量处理 Amazon Textract Amazon A2I

本文链接：https://blog.youkuaiyun.com/algae/article/details/151099278

用AWS AI解锁文本价值专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

提升PDF批量处理准确性与手写内容洞察可视化

1. 提升PDF批量处理准确性

在处理PDF文档时，为了提升批量处理的准确性，我们可以借助Amazon Textract和Amazon A2I等工具。以下是具体的操作步骤：
1. 数据准备 ：假设我们有一个包含文档名称、行号、检测文本、置信度、校正文本和更改注释等信息的数据集。我们可以将这些信息整理成字典形式，以便后续插入到DynamoDB表中。示例代码如下：

{
    'doc_name': str(row['DocName']),
    'line_nr': str(row['LineNr']),
    'detected_line': str(row['DetectedText']),
    'confidence': str(row['Confidence']),
    'corrected_line': str(row['CorrectedText']),
    'change_comments': str(row['Comments'])
}

插入数据到DynamoDB表 ：将上述整理好的数据插入到DynamoDB表中。插入成功后，会输出相应的提示信息。示例代码如下：

print("Items were successfully created in DynamoDB table")

整个流程可以用以下mermaid流程图表示：

graph LR
    A[数据准备] --> B[插入数据到DynamoDB表]
    B --> C[输出插入成功信息]

2. 手写内容洞察可视化

在实际业务场景中，我们可能会遇到需要处理手写内容的情况。例如，在举办活动时，当地供应商提供的是手写收据，而管理层需要汇总所有支出的报告。这时，我们可以利用Amazon Textract、Amazon QuickSight等工具来提取手写内容中的信息，并进行可视化展示。

2.1 技术要求

访问AWS账户，可通过 https://aws.amazon.com/console/ 进行操作。
解决方案的Python代码和示例数据集可在 https://github.com/PacktPublishing/Natural-Language-Processing-with-AWS-AI-Services/tree/main/Chapter%2017 找到。
可通过 https://bit.ly/3vLX5j0 查看代码运行示例视频。

2.2 提取手写图像中的文本

创建SageMaker Jupyter笔记本 ：
- 按照相关说明创建Amazon SageMaker Jupyter笔记本，并设置Identity and Access Management (IAM)权限，使笔记本角色能够访问所需的AWS服务。
- 克隆GitHub仓库： git clone https://github.com/PacktPublishing/Natural-Language-Processing-with-AWS-AI-Services 。
- 创建Amazon S3桶，并在笔记本中提供桶名称。
额外的IAM先决条件 ：
- 为SageMaker笔记本角色附加TextractFullAccess策略。
- 添加 iam:PassRole 权限作为内联策略到SageMaker笔记本执行角色。示例代码如下：

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "iam:PassRole"
            ],
            "Effect": "Allow",
            "Resource": "<your sagemaker notebook execution role ARN>"
        }
    ]
}

创建Amazon S3桶 ：
- 在笔记本的 STEP 0 – CELL 1 中输入桶名称： bucket = "<enter-S3-bucket-name>" 。
- 执行 STEP 0 – CELL 1 ，导入所需的库，初始化变量，为后续步骤做好准备。
使用Amazon Textract提取文本 ：
- 执行 STEP 1 – CELL 1 ，格式化清单文件，包含桶和前缀名称。
- 执行 STEP 1 – CELL 2 ，将格式化后的清单文件上传到S3桶。示例代码如下：

s3 = boto3.client('s3')
s3.upload_file(outfile, bucket, prefix + '/' + outfile)

- 记录清单文件的S3位置，后续设置QuickSight时会用到。
- 执行`STEP 2 – CELL 1`，安装Amazon Textract Response Parser (TRP)。
- 执行`STEP 2 – CELL 2`，导入解析器的`Document`类。
- 执行`STEP 2 – CELL 3`，搜索当前目录中以`.jpg`结尾的文件，将其转换为字节数组，调用Textract的`AnalyzeDocument` API进行分析，将结果解析并存储到CSV文件中，最后将CSV文件上传到S3桶。示例代码如下：

for docs in os.listdir('.'):
    if docs.endswith('jpg'):
        with open(docs, 'rb') as img:
            img_test = img.read()
            bytes_test = bytearray(img_test)
        response = textract.analyze_document(Document={'Bytes': bytes_test}, FeatureTypes=['TABLES', 'FORMS'])
        text = Document(response)
        for page in text.pages:
            for table in page.tables:
                csvout = docs.replace('jpg', 'csv')
                with open(csvout, 'w', newline='') as csvf:
                    tab = csv.writer(csvf, delimiter=',')
                    for r, row in enumerate(table.rows):
                        csvrow = []
                        for c, cell in enumerate(row.cells):
                            if cell.text:
                                csvrow.append(cell.text.replace('$', '').rstrip())
                        tab.writerow(csvrow)
        s3.upload_file(csvout, bucket, prefix + '/dashboard/' + csvout)

整个提取文本的流程可以用以下表格总结：
| 步骤 | 操作 | 代码示例 |
| ---- | ---- | ---- |
| 1 | 格式化清单文件 | 执行STEP 1 – CELL 1 |
| 2 | 上传清单文件到S3桶 | s3.upload_file(outfile, bucket, prefix + '/' + outfile) |
| 3 | 安装TRP | 执行STEP 2 – CELL 1 |
| 4 | 导入 Document 类 | 执行STEP 2 – CELL 2 |
| 5 | 搜索并处理 .jpg 文件 | 执行STEP 2 – CELL 3 |

通过以上步骤，我们可以完成手写图像中文本的提取，并将结果存储到S3桶中，为后续的可视化分析做好准备。

2.3 使用Amazon QuickSight可视化洞察

在完成手写图像中文本的提取并将结果存储到S3桶后，我们可以使用Amazon QuickSight对数据进行可视化展示，以便更好的分析和决策。以下是具体的操作步骤：

启用QuickSight ：
- 登录AWS管理控制台，在顶部中心的服务搜索栏中输入“QuickSight”，点击搜索结果中的“QuickSight”，进入QuickSight注册页面。
- 输入电子邮件地址，点击“Continue”。
创建数据集 ：
- 登录后，点击左侧面板的“Datasets”，然后点击右上角的“New dataset”按钮。
- 在数据集页面点击“S3”。
- 在弹出窗口中，为数据源名称输入“handwritten - receipts”。
- 在“Upload a manifest file”输入区域，粘贴Jupyter笔记本中 STEP 1 – CELL 2 打印的S3位置，然后点击“Connect”。
导入数据集并验证 ：
- 数据集导入成功后，点击弹出窗口右下角的“Visualize”按钮，打开QuickSight控制台。
- 验证导入是否成功，如果出现错误，检查S3桶中 Chapter17/dashboard 前缀下的CSV文件内容。
创建可视化图表 ：
- 创建饼图 ：在左侧的“Visual types”部分，点击饼图符号，从“Fields list”中添加字段到图表，以可视化已订购家具的数量。
- 添加新视觉 ：点击左上角的“Add”，选择“Add visual”。
- 创建甜甜圈图 ：在左侧的“Visual types”部分选择甜甜圈图，选择“ITEM”和“PRICE”，并将它们添加到“Group/Color”和“Value”字段，以显示总成本和按家具类型划分的成本。
查看洞察 ：点击控制台中间左侧的“Insights”选项，查看QuickSight从数据中收集到的洞察。

整个可视化流程可以用以下mermaid流程图表示：

graph LR
    A[启用QuickSight] --> B[创建数据集]
    B --> C[导入数据集并验证]
    C --> D[创建可视化图表]
    D --> E[查看洞察]

以下是操作步骤的总结表格：
| 步骤 | 操作 |
| ---- | ---- |
| 1 | 登录AWS管理控制台，搜索并进入QuickSight注册页面，输入电子邮件继续 |
| 2 | 点击“Datasets”，新建数据集，选择S3，输入数据源名称，粘贴清单文件S3位置并连接 |
| 3 | 导入数据集，点击“Visualize”，验证导入结果 |
| 4 | 创建饼图、添加新视觉、创建甜甜圈图 |
| 5 | 点击“Insights”查看数据洞察 |

通过以上步骤，我们可以将手写收据中的信息进行提取、存储和可视化展示，为管理层提供直观的支出报告，辅助决策制定。无论是提升PDF批量处理的准确性，还是对手写内容进行洞察可视化，这些技术和操作步骤都能帮助我们更好地处理和分析数据，从数据中获取有价值的信息。