TextIn ParseX：助力开发者解析版面元素信息

原创

已于 2024-09-05 10:00:42 修改 · 1.9k 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#textin #python #合合信息 #元素 #科技

于 2024-09-05 09:38:55 首次发布

TextIn ParseX通用文档解析是一款大模型友好的解析工具，支持将pdf文档、jpg、img图像等文件快速转换为markdown格式，支持各类表格、公式解析，帮助大语言模型的数据清洗和文档问答任务。

产品特点

支持多种扫描内容：能良好处理各类图片与扫描文档，包括手机照片、截屏等内容。
支持多种语言：支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。
表格识别效果好：能准确识别各种格式的表格，包括有线表格、无线表格、密集表格，并支持各种类型的合并单元格识别与还原。
阅读顺序还原准：能理解和还原文档的结构和元素排列，确保阅读顺序的准确性，支持多栏布局的论文、年报、业务报告等内容。
自研文档树引擎：从语义出发，提取段落embedding值，预测标题层级关系，通过构造文档树提高检索召回效果。

为了让用户获得文档解析引擎返回的丰富版面元素，我们开发了一系列的sdk函数，包括目录树、公式、表格、图片、全文markdown等结果的获取函数。对于api用户来说，评估文档解析引擎的版面分析结果准确性是困难的，可视化的前端界面可以一定程度解决定性评估的问题，另外一些场景中，用户希望能够可视化文件解析的结果，并对结果进行编辑修正，获得更高精度的解析结果，这个时候前端可视化组件就是必不可少的了。为了满足这些需求，方便用户，我们将textin.com上面的前端可视化组件进行了开源，请用户批评指正。

1、SDK功能介绍

TextIn ParseX是一套标准的多平台支持的python sdk，帮助开发者解析pdf_to_markdownRestful API返回结果，获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。

为了方便用户获取版面元素，此次更新，调用接口增加了'page_details'参数，返回的json结果里面新增加了'pages'的字段。

pip install TextInParseX

如果报错timeout，可以尝试国内源：

pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

首先，你要在textin开通文档解析服务，然后可以在试用工作台点击用户图标，再点击账号与开发者信息（或者登陆后从textin首页->账户与充值->账号与开发者信息，或者点击https://www.textin.com/console/dashboard/setting）中获得api_id和secret_code。

最低0.47元/天解锁文章