25、提升PDF批量处理准确性与手写内容洞察可视化

提升PDF批量处理准确性与手写内容洞察可视化

1. 提升PDF批量处理准确性

在处理PDF文档时,为了提升批量处理的准确性,我们可以借助Amazon Textract和Amazon A2I等工具。以下是具体的操作步骤:
1. 数据准备 :假设我们有一个包含文档名称、行号、检测文本、置信度、校正文本和更改注释等信息的数据集。我们可以将这些信息整理成字典形式,以便后续插入到DynamoDB表中。示例代码如下:

{
    'doc_name': str(row['DocName']),
    'line_nr': str(row['LineNr']),
    'detected_line': str(row['DetectedText']),
    'confidence': str(row['Confidence']),
    'corrected_line': str(row['CorrectedText']),
    'change_comments': str(row['Comments'])
}
  1. 插入数据到DynamoDB表 :将上述整理好的数据插入到DynamoDB表中。插入成功后,会输出相应的提示信息。示例代码如下:
print("Items were successfully created in DynamoDB table")

整个流程可以用以下mermaid流程图表示:

graph LR
    A[数据准备] --> B[插入数据到DynamoDB表]
    B --> C[输出插入成功信息]
2. 手写内容洞察可视化

在实际业务场景中,我们可能会遇到需要处理手写内容的情况。例如,在举办活动时,当地供应商提供的是手写收据,而管理层需要汇总所有支出的报告。这时,我们可以利用Amazon Textract、Amazon QuickSight等工具来提取手写内容中的信息,并进行可视化展示。

2.1 技术要求
2.2 提取手写图像中的文本
  1. 创建SageMaker Jupyter笔记本
    • 按照相关说明创建Amazon SageMaker Jupyter笔记本,并设置Identity and Access Management (IAM)权限,使笔记本角色能够访问所需的AWS服务。
    • 克隆GitHub仓库: git clone https://github.com/PacktPublishing/Natural-Language-Processing-with-AWS-AI-Services
    • 创建Amazon S3桶,并在笔记本中提供桶名称。
  2. 额外的IAM先决条件
    • 为SageMaker笔记本角色附加TextractFullAccess策略。
    • 添加 iam:PassRole 权限作为内联策略到SageMaker笔记本执行角色。示例代码如下:
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "iam:PassRole"
            ],
            "Effect": "Allow",
            "Resource": "<your sagemaker notebook execution role ARN>"
        }
    ]
}
  1. 创建Amazon S3桶
    • 在笔记本的 STEP 0 – CELL 1 中输入桶名称: bucket = "<enter-S3-bucket-name>"
    • 执行 STEP 0 – CELL 1 ,导入所需的库,初始化变量,为后续步骤做好准备。
  2. 使用Amazon Textract提取文本
    • 执行 STEP 1 – CELL 1 ,格式化清单文件,包含桶和前缀名称。
    • 执行 STEP 1 – CELL 2 ,将格式化后的清单文件上传到S3桶。示例代码如下:
s3 = boto3.client('s3')
s3.upload_file(outfile, bucket, prefix + '/' + outfile)
- 记录清单文件的S3位置,后续设置QuickSight时会用到。
- 执行`STEP 2 – CELL 1`,安装Amazon Textract Response Parser (TRP)。
- 执行`STEP 2 – CELL 2`,导入解析器的`Document`类。
- 执行`STEP 2 – CELL 3`,搜索当前目录中以`.jpg`结尾的文件,将其转换为字节数组,调用Textract的`AnalyzeDocument` API进行分析,将结果解析并存储到CSV文件中,最后将CSV文件上传到S3桶。示例代码如下:
for docs in os.listdir('.'):
    if docs.endswith('jpg'):
        with open(docs, 'rb') as img:
            img_test = img.read()
            bytes_test = bytearray(img_test)
        response = textract.analyze_document(Document={'Bytes': bytes_test}, FeatureTypes=['TABLES', 'FORMS'])
        text = Document(response)
        for page in text.pages:
            for table in page.tables:
                csvout = docs.replace('jpg', 'csv')
                with open(csvout, 'w', newline='') as csvf:
                    tab = csv.writer(csvf, delimiter=',')
                    for r, row in enumerate(table.rows):
                        csvrow = []
                        for c, cell in enumerate(row.cells):
                            if cell.text:
                                csvrow.append(cell.text.replace('$', '').rstrip())
                        tab.writerow(csvrow)
        s3.upload_file(csvout, bucket, prefix + '/dashboard/' + csvout)

整个提取文本的流程可以用以下表格总结:
| 步骤 | 操作 | 代码示例 |
| ---- | ---- | ---- |
| 1 | 格式化清单文件 | 执行STEP 1 – CELL 1 |
| 2 | 上传清单文件到S3桶 | s3.upload_file(outfile, bucket, prefix + '/' + outfile) |
| 3 | 安装TRP | 执行STEP 2 – CELL 1 |
| 4 | 导入 Document 类 | 执行STEP 2 – CELL 2 |
| 5 | 搜索并处理 .jpg 文件 | 执行STEP 2 – CELL 3 |

通过以上步骤,我们可以完成手写图像中文本的提取,并将结果存储到S3桶中,为后续的可视化分析做好准备。

2.3 使用Amazon QuickSight可视化洞察

在完成手写图像中文本的提取并将结果存储到S3桶后,我们可以使用Amazon QuickSight对数据进行可视化展示,以便更好的分析和决策。以下是具体的操作步骤:

  1. 启用QuickSight
    • 登录AWS管理控制台,在顶部中心的服务搜索栏中输入“QuickSight”,点击搜索结果中的“QuickSight”,进入QuickSight注册页面。
    • 输入电子邮件地址,点击“Continue”。
  2. 创建数据集
    • 登录后,点击左侧面板的“Datasets”,然后点击右上角的“New dataset”按钮。
    • 在数据集页面点击“S3”。
    • 在弹出窗口中,为数据源名称输入“handwritten - receipts”。
    • 在“Upload a manifest file”输入区域,粘贴Jupyter笔记本中 STEP 1 – CELL 2 打印的S3位置,然后点击“Connect”。
  3. 导入数据集并验证
    • 数据集导入成功后,点击弹出窗口右下角的“Visualize”按钮,打开QuickSight控制台。
    • 验证导入是否成功,如果出现错误,检查S3桶中 Chapter17/dashboard 前缀下的CSV文件内容。
  4. 创建可视化图表
    • 创建饼图 :在左侧的“Visual types”部分,点击饼图符号,从“Fields list”中添加字段到图表,以可视化已订购家具的数量。
    • 添加新视觉 :点击左上角的“Add”,选择“Add visual”。
    • 创建甜甜圈图 :在左侧的“Visual types”部分选择甜甜圈图,选择“ITEM”和“PRICE”,并将它们添加到“Group/Color”和“Value”字段,以显示总成本和按家具类型划分的成本。
  5. 查看洞察 :点击控制台中间左侧的“Insights”选项,查看QuickSight从数据中收集到的洞察。

整个可视化流程可以用以下mermaid流程图表示:

graph LR
    A[启用QuickSight] --> B[创建数据集]
    B --> C[导入数据集并验证]
    C --> D[创建可视化图表]
    D --> E[查看洞察]

以下是操作步骤的总结表格:
| 步骤 | 操作 |
| ---- | ---- |
| 1 | 登录AWS管理控制台,搜索并进入QuickSight注册页面,输入电子邮件继续 |
| 2 | 点击“Datasets”,新建数据集,选择S3,输入数据源名称,粘贴清单文件S3位置并连接 |
| 3 | 导入数据集,点击“Visualize”,验证导入结果 |
| 4 | 创建饼图、添加新视觉、创建甜甜圈图 |
| 5 | 点击“Insights”查看数据洞察 |

通过以上步骤,我们可以将手写收据中的信息进行提取、存储和可视化展示,为管理层提供直观的支出报告,辅助决策制定。无论是提升PDF批量处理的准确性,还是对手写内容进行洞察可视化,这些技术和操作步骤都能帮助我们更好地处理和分析数据,从数据中获取有价值的信息。

基于粒子群优化算法的p-Hub选址优化(Matlab代码实现)内容概要:本文介绍了基于粒子群优化算法(PSO)的p-Hub选址优化问题的研究实现,重点利用Matlab进行算法编程和仿真。p-Hub选址是物流交通网络中的关键问题,旨在通过确定最优的枢纽节点位置和非枢纽节点的分配方式,最小化网络总成本。文章详细阐述了粒子群算法的基本原理及其在解决组合优化问题中的适应性改进,结合p-Hub中转网络的特点构建数学模型,并通过Matlab代码实现算法流程,包括初始化、适应度计算、粒子更新收敛判断等环节。同时可能涉及对算法参数设置、收敛性能及不同规模案例的仿真结果分析,以验证方法的有效性和鲁棒性。; 适合人群:具备一定Matlab编程基础和优化算法理论知识的高校研究生、科研人员及从事物流网络规划、交通系统设计等相关领域的工程技术人员。; 使用场景及目标:①解决物流、航空、通信等网络中的枢纽选址路径优化问题;②学习并掌握粒子群算法在复杂组合优化问题中的建模实现方法;③为相关科研项目或实际工程应用提供算法支持代码参考。; 阅读建议:建议读者结合Matlab代码逐段理解算法实现逻辑,重点关注目标函数建模、粒子编码方式及约束处理策略,并尝试调整参数或拓展模型以加深对算法性能的理解。
内容概要:本文全面介绍了C#全栈开发的学习路径资源体系,涵盖从基础语法到企业级实战的完整知识链条。内容包括C#官方交互式教程、开发环境搭建(Visual Studio、VS Code、Mono等),以及针对不同应用场景(如控制台、桌面、Web后端、跨平台、游戏、AI)的进阶学习指南。通过多个实战案例——如Windows Forms记事本、WPF学生管理系统、.NET MAUI跨平台动物图鉴、ASP.NET Core实时聊天系统及Unity 3D游戏项目——帮助开发者掌握核心技术栈架构设计。同时列举了Stack Overflow、Power BI、王者荣耀后端等企业级应用案例,展示C#在高性能场景下的实际运用,并提供了高星开源项目(如SignalR、AutoMapper、Dapper)、生态工具链及一站式学习资源包,助力系统化学习工程实践。; 适合人群:具备一定编程基础,工作1-3年的研发人员,尤其是希望转型全栈或深耕C#技术栈的开发者; 使用场景及目标:①系统掌握C#在不同领域的应用技术栈;②通过真实项目理解分层架构、MVVM、实时通信、异步处理等核心设计思想;③对接企业级开发标准,提升工程能力和实战水平; 阅读建议:此资源以开发简化版Spring学习其原理和内核,不仅是代码编写实现也更注重内容上的需求分析和方案设计,所以在学习的过程要结合这些内容一起来实践,并调试对应的代码。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值