UiPath安装pdf

本课程针对RPA开发人员,介绍如何安装UiPath PDF活动包,并通过'读取PDF'、'带OCR的PDF阅读'等活动,以及使用选择器和Anchor Base活动从PDF文档中高效提取信息。

在本课程中,我们将研究PDF文档的类型以及尝试从PDF文档提取数据使用时的方法

受众:RPA之家的开发人员

学习目标

在本课程结束时,您将能够:

安装UiPath PDF活动包;

使用“读取PDF”活动,“带OCR的PDF阅读”活动和“屏幕抓取”向导从PDF提取大文本段;

从PDF文档中提取一条信息;

使用选择器从具有相同布局的多个文件中提取波动值;

使用Anchor Base活动从一系列具有相同结构的PDF文件中提取波动值。

 在本课程结束时,您应该能够:

1安装UiPath PDF活动包;

2使用“读取PDF”活动,“带OCR的PDF阅读”活动和“屏幕抓取”向导从PDF提取大文本段;

3从PDF文档中提取一条信息;

4使用选择器从具有相同布局的多个文件中提取波动值;

5使用Anchor Base活动从一系列具有相同结构的PDF文件中提取波动值。

注意:本课程是使用UiPath Studio 2018.3。创建的。 最新的Community Edition版本中的某些元素可能有所不同。

在开始使用本课程之前,如果您正在使用Adobe Acrobat Reader,请注意以下几点:

注意1:如果使用Adobe Reader DC Acrobat打开PDF,则可能需要采取一些步骤,才能使用UiPath studio方法提取特定元素。启动Acrobat,然后按Ctrl + K。这将打开“首选项”弹出窗口。从左侧面板的类别中选择“阅读”。验证下拉阅读顺序选项是否设置为Acrobat推荐的选项,“从文档推断阅读顺序(推荐)”,“页面与文档”:应设置为“阅读整个文档”和“在标记文档之前确认” '应取消选中。然后在左侧面板上,单击辅助功能。在“其他辅助功能选项”部分中,如果前两个框尚未选中,请选中它们:“在未指定显式制表符顺序时使用文档结构作为制表符顺序”,“启用辅助技术支持”,然后单击“确定”。

注意2:如果您仍然无法从Acrobat Reader DC打开的PDF文件中提取特定元素,请尝试使用RPA之家较旧版本的Acrobat DC(任何以18开头的版本都可以使用https://www.adobe.com/devnet- docs / acrobatetk / tools / ReleaseNotesDC / index.html#)。 Acrobat DC在计算机上会自动更新到最新的可用版本。在某些最新版本(从19开始)中,可访问性可能存在问题,Adobe Reader逐渐放弃了对未标记文档的支持。遵循的步骤:

卸载当前版本的Acrobat Reader DC

安装RPA之家Acrobat Reader DC的基本版本https://www.adobe.com/devnet-docs/acrobatetk/tools/ReleaseNotesDC/continuous/dccontinuous.html#dccontinuous

从18开始的任何版本安装补丁

禁用Adobe Reader自动更新https://www.wintips.org/how-to-disable-automatic-update-in-adobe-reader-dc/

### 使用 UiPath 读取 PDF 文件 #### 安装必要的 为了能够使用 UiPath 来处理 PDF 文档,需先确保已安装 `UiPath.PDF.Activities` 。此提供了用于操作 PDF活动集合。 #### 配置 Adobe Reader 设置 (如果适用) 当使用 Adobe Reader DC Acrobat 打开 PDF 并打算从中提取信息时,建议调整某些设置来优化与 UiPath Studio 的兼容性[^3]: - 启动 Acrobat,并按下 Ctrl + K 调出偏好设定对话框; - 在左侧菜单中选择“阅读”,并将“阅读顺序”的选项设为由软件自动推测的最佳方式; - 继续在同一界面下的“辅助功能”标签页里勾选两项重要配置:一是允许程序依据文档结构决定Tab键导航路径;二是激活对屏幕阅读器的支持。 #### 实现方案一:利用 Read PDF Text 活动获取纯文本内容 对于简单的场景,可以直接应用 **Read PDF Text** 动作节点轻松抓取整个或部分内容。该动作位于 `UiPath.PDF.Activities` 库内,支持多种参数自定义以满足不同需求,比如指定要解析的具体页面范围等[^1]。 ```xml <uipath> <!-- 创建一个新的序列 --> <Sequence Name="Main"> <!-- 添加一个变量存储PDF文件路径 --> <Variable x:TypeArguments="x:String" Name="FilePath"/> <!-- 将实际的PDF文件路径赋给变量 FilePath --> <Assign Value="[\"C:\\example.pdf\"]" To="[FilePath]" /> <!-- 使用 Read PDF Text Activity 读取 PDF 中的文字 --> <ui:Pdf.ReadPdfText InputFile="[FilePath]" OutputArgument="[ExtractedText]" /> <!-- 输出提取到的内容 --> <WriteLine Text="[ExtractedText]" /> </Sequence> </uipath> ``` #### 方案二:借助 OCR 技术识别图像中的文字 面对扫描件或其他形式难以直接转换成可编辑文本的情况,则可以考虑采用光学字符识别(OCR)技术。此时需要用到的是名为 **Read PDF With OCR** 的特殊组件,它同样来自上述提到的那个扩展库。 ```csharp // 假定已经引入了所需的命名空间 using UiPath.PDF; public void ExtractTextWithOcr(string filePath, out string extractedText){ // 初始化 PdfDocument 对象 var document = new PdfDocument(filePath); // 开始执行 OCR 处理并接收返回的结果字符串 extractedText = document.GetTextUsingOcr(); } ``` 以上两种途径均能有效地帮助用户完成从 PDF 获取所需资料的任务,在具体实践中可根据实际情况灵活选用合适的方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值