TextIn ParseX文档解析SDK工具新增Java版本

原创

于 2024-11-06 09:30:00 发布 · 1.5k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#java #开发语言 #语言模型 #人工智能 #开源 #数据清洗 #文档解析

SDK功能介绍

SDK使用方法

SDK使用示例

TextIn ParseX通用文档解析是一款大模型友好的解析工具，支持将pdf文档、jpg、img图像等文件快速转换为markdown格式，支持各类表格、公式解析，帮助大语言模型的数据清洗和文档问答任务。此前，为了让用户获得文档解析引擎返回的丰富版面元素，我们推出了一系列的sdk函数（+link），包括目录树、公式、表格、图片、全文markdown等结果的获取函数；同时开源了前端可视化组件（+link），满足用户个性化的校对使用需求。

近日，为便于使用Java语言的开发者调用文档解析引擎，TextIn ParseX SDK工具新增Java版本。

SDK工具Java版地址：https://github.com/intsig-textin/parsex-sdk/tree/main/java

SDK功能介绍

这是一套标准的多平台支持的Java SDK，帮助开发者解析pdf_to_markdownRestful API返回结果，获取对应的版面元素的数据结构。

开发者只需下载jar包，并导入到自己的项目中即可使用。

SDK使用方法

在项目中引入jar包后即可使用。

# 以下为gradle的配置方式
implementation 'io.github.supperai:parse_sdk:1.0.1'

# 以下为maven的配置方式
<dependency>
    <groupId>io.github.supperai</groupId>
    <artifactId>parse_sdk</artifactId>
    <version>1.0.1</version>
</dependency>