TextIn ParseX文档解析参数使用指南(第一期)

TextIn ParseX通用文档解析作为一款适配多样化场景的PDF解析工具,在基础识别能力以上,还提供了便捷、完善的参数配置功能,便于用户根据自身需求调整,获得所需输出结果。在TextIn技术社群,我们的产品团队也经常接到关于参数调配的提问与建议,因此,在本期指南中,我们将介绍常用参数的作用及使用方法,前端界面中参数面板的位置如下图所示。

阅读检索指引:

参数名称

使用场景

page_start & page_count

需解析文件中部分页码

dpi

调控分辨率

pdf_pwd

解析加密PDF文件

apply_document_tree & catalog_details

识别层级标题与生成目录

markdown_details

获取JSON结果

page_details & char_details

获取不同精度的页面布局信息

table_flavor

指定表格输出格式

get_image & image_output_type

获取文档中的图片并选择输出形式

parse_mode

选择解析模式

get_excel

获取Excel格式表格

raw_ocr

需要原始OCR结果

1. 解析起点页码(page_start)与解析的页数(page_count)

在ParseX中,page_start参数用于指定文档解析的起始页码,当启用该参数时,ParseX会从指定的页码开始解析文档,忽略之前的页面。page_count参数用于指定文档解析的总页数(总页数不得超过1000页)。

这两个参数的设置有助于用户根据需求,仅解析文档的特定部分,例如前几页或某个指定章节,节省时间和资源。

2. 文件分辨率(dpi)

PDF文档的坐标基准默认为144 dpi。 当parse_mode=auto时,默认动态,支持72、144、216; 当parse_mode=scan时,默认144,支持72、144、216。

如果文档需要高精度解析(如包含小字体、复杂表格或需要获取高清图片输出),建议使用较高的分辨率。如果仅用于快速预览或普通文本识别,可以适当降低dpi以节省时间和存储空间。

3. PDF密码(pdf_pwd)

当pdf为加密文档时,在参数处pdf_pwd处输入密码。如需对前端封装该接口,建议自行对密码进行安全防护。

4. 识别文档标题(apply_document_tree)与目录 (catalog_details)

apply_document_tree参数用于确定是否生成层级标题,参数中:0=不生成;1=生成标题。默认配置为1,生成标题。

当启用该参数时,文档解析工具会构建一个文档的层级结构树,通常用于表示文档的逻辑结构,例如标题、段落、表格等元素的层级关系,帮助更好地理解文档的逻辑结构,便于后续的文档处理和分析。

TextIn ParseX文档树引擎算法逻辑示意图

catalog details 参数用于控制是否在解析文档时提取和输出文档的目录结构信息,当为1或true时,可以返回 catalog details,近期新增sub type用以区分文本、图像标题、表格标题、文本标题。

参数协同工作效果展示

5. 获取JSON结果(markdown_details)

markdown details 参数用于控制是否在解析文档时生成 Markdown 格式相关的详细信息,默认设置为1,生成markdown details。

启用该参数时,ParseX会输出文档的结构化信息,例如标题、段落、列表、表格等。

6. 获取页面元素(page_details)与获取文本行详情(char_details)

page details 参数用于控制是否在解析文档时返回与页面布局和元素相关的详细信息,当参数为1或true时,可以返回 pages 字段,默认设置打开。

启用该参数时,ParseX会提取页面中的更多细节,如页面的布局、图像位置、文本的排版等,有助于更完整地还原文档的原始布局和视觉效果。

char_details 参数用于控制是否在解析文档时提取和保留字符级别的详细信息,当参数为1或 true时,可以返回 char_pos 字段,保存了每一行的位置信息,默认设置关闭。

启用该参数时,ParseX会提取文档中每个字符的详细信息,包括字符的位置、字体、字号等,适用于需要对文档的排版和格式进行精细分析或处理的场景,例如在处理设计文档、排版校对或需要保留原始格式的文档时。

7. 表格语法(table_flavor)

table_flavor 参数用于指定表格解析后的输出格式。

  • md:按Markdown语法输出表格,适合轻量级文档编辑。

  • html:按HTML语法输出表格,适用于网页展示或进一步的HTML处理。

8. 获取页面图片(get_image)与图片类型(image_output_type)

get_image 参数用于控制是否获取文档Markdown中的图片,默认设置为objects。

参数含义:

  • none=不返回任何图像

  • page=返回每一页的整页图像

  • objects=返回页面内的图像对象

  • both=返回整页图像和图像对象

image_output_type 参数用于指定引擎返回的图片对象输出类型,默认返回子图片url和页图片id。

参数含义:

  • base64str=指定所有图片对象为base64字符串,适用于没有云存储的用户;便于直接嵌入到HTML或其他支持base64格式的文档中,但由于引擎返回结果体积大,返回速度将受到一定影响

  • default=指定子图片对象为图片url,页图片对象为图片id;适用于需要将图片存储到服务器或云存储并获取访问链接的场景。

9. 解析模式(parse_mode)

parse_mode 参数用于指定解析文档时所采用的模式,PDF解析模式默认为scan模式,仅按文字识别模式;图片无需设置,均按文字识别方式处理。

参数含义:

  • auto=综合文字识别和解析模式

  • scan=仅按文字识别模式

其中,解析模式适用于文档主要由文本组成的情况,文字识别模式使用OCR技术解析文档,适用于文档包含图像或扫描件,或者文本无法直接提取的情况。

10. 获取Excel文件(get_excel)

get_excel 参数通常用于控制是否从文档中提取表格数据,并返回excel结果,结果字段为 excel_base64,默认为1,返回。

通过设置该参数,用户可以根据实际需求选择是否返回Excel,满足不同场景下的文档解析和数据处理需求。

11. 全文识别结果 (raw_ocr)

raw_ocr 参数用于控制是否返回全文的OCR识别结果,而不是经过进一步处理或格式化的文本,结果字段为 raw_ocr。默认设置为0,不返回;当page_details为0或false时不返回。

当启用该参数时,ParseX会返回OCR识别的原始结果,包括识别的文本、位置信息等元数据。返回原始OCR数据能为用户提供更多的开发灵活性,用户可以根据自己的需求对数据进行自定义处理。这一功能也适用于需要对OCR结果进行进一步处理或分析的场景,例如提取特定区域的文本或进行文本校正。

⭐欢迎后台私信小助手,开通免费试用,在线体验ParseX!

对ParseX参数有任何使用问题,可以加入技术交流社群,随时与我们联系!

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值