
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。
产品特点
-
支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。
-
支持多种语言:支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。
-
表格识别效果好:能准确识别各种格式的表格,包括有线表格、无线表格、密集表格,并支持各种类型的合并单元格识别与还原。
-
阅读顺序还原准:能理解和还原文档的结构和元素排列,确保阅读顺序的准确性,支持多栏布局的论文、年报、业务报告等内容。
-
自研文档树引擎:从语义出发,提取段落embedding值,预测标题层级关系,通过构造文档树提高检索召回效果。

为了让用户获得文档解析引擎返回的丰富版面元素,我们开发了一系列的sdk函数,包括目录树、公式、表格、图片、全文markdown等结果的获取函数。对于api用户来说,评估文档解析引擎的版面分析结果准确性是困难的,可视化的前端界面可以一定程度解决定性评估的问题,另外一些场景中,用户希望能够可视化文件解析的结果,并对结果进行编辑修正,获得更高精度的解析结果,这个时候前端可视化组件就是必不可少的了。为了满足这些需求,方便用户,我们将textin.com上面的前端可视化组件进行了开源,请用户批评指正。
1、SDK功能介绍
TextIn ParseX是一套标准的多平台支持的python sdk,帮助开发者解析pdf_to_markdownRestful API返回结果,获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。
为了方便用户获取版面元素,此次更新,调用接口增加了'page_details'参数,返回的json结果里面新增加了'pages'的字段。
pip install TextInParseX
如果报错timeout,可以尝试国内源:
pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
首先,你要在textin开通文档解析服务,然后可以在试用工作台点击用户图标,再点击账号与开发者信息(或者登陆后从textin首页->账户与充值->账号与开发者信息,或者点击https://www.textin.com/console/dashboard/setting)中获得api_id和secret_code。
TextIn ParseX文档解析工具介绍

最低0.47元/天 解锁文章
487





