TextIn ParseX通用文档解析作为一款适配多样化场景的PDF解析工具,在基础识别能力以上,还提供了便捷、完善的参数配置功能,便于用户根据自身需求调整,获得所需输出结果。在TextIn技术社群,我们的产品团队也经常接到关于参数调配的提问与建议,因此,在本期指南中,我们将介绍常用参数的作用及使用方法,前端界面中参数面板的位置如下图所示。

阅读检索指引👇

1. 解析起点页码(page_start)与解析的页数(page_count)
在ParseX中,page_start 参数用于指定文档解析的起始页码,当启用该参数时,ParseX会从指定的页码开始解析文档,忽略之前的页面。page_count 参数用于指定文档解析的总页数(总页数不得超过1000页)。
这两个参数的设置有助于用户根据需求,仅解析文档的特定部分,例如前几页或某个指定章节,节省时间和资源。
2. 文件分辨率(dpi)
PDF文档的坐标基准默认为144 dpi。 当parse_mode =auto时,默认动态,支持72、144、216; 当parse_mode =scan时,默认144,支持72、144、216。
如果文档需要高精度解析(如包含小字体、复杂表格或需要获取高清图片输出),建议使用较高的分辨率。如果仅用于快速预览或普通文本识别,可以适当降低dpi以节省时间和存储空间。
<
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



