Zerox OCR 项目使用与启动教程

最新推荐文章于 2025-04-08 09:29:59 发布

秋孝盼

最新推荐文章于 2025-04-08 09:29:59 发布

阅读量649

点赞数 21

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00549/article/details/147058733

Zerox OCR 项目使用与启动教程

zerox OCR & Document Extraction using vision models 项目地址: https://gitcode.com/gh_mirrors/ze/zerox

1. 项目介绍

Zerox OCR 是一个简单易用的光学字符识别（OCR）工具，旨在帮助开发者从文档中提取文本内容。它支持多种文件格式，如 PDF、DOCX 以及图像文件，并将它们转换为 Markdown 格式，以便于 AI 摄入。Zerox OCR 通过使用不同的视觉模型，如 OpenAI、Azure OpenAI、AWS Bedrock、Google Gemini 等，实现了灵活的 OCR 处理。

2. 项目快速启动

环境准备

在开始之前，请确保您的系统中已经安装了 Node.js 和 npm。此外，Zerox OCR 在处理 PDF 文件时需要依赖 graphicsmagick 和 ghostscript，您可以通过以下命令进行安装：

sudo apt-get update
sudo apt-get install -y graphicsmagick ghostscript

安装

通过 npm 安装 Zerox：

npm install zerox

使用

以下是一个使用 Zerox OCR 的基本示例：

const { zerox } = require('zerox');

async function ocrExample() {
    try {
        const result = await zerox({
            filePath: 'path/to/your/document.pdf',
            credentials: {
                apiKey: 'your-api-key'
            },
            // 其他可选参数...
        });

        console.log(result);
    } catch (error) {
        console.error('An error occurred:', error);
    }
}

ocrExample();

确保将 'path/to/your/document.pdf' 替换为您的文件路径，并且使用有效的 API 密钥替换 'your-api-key'。

3. 应用案例和最佳实践

PDF 文件处理

Zerox OCR 可以处理 PDF 文件并转换为 Markdown 格式。以下是一个简单的示例：

const result = await zerox({
    filePath: 'path/to/your/document.pdf',
    credentials: {
        apiKey: 'your-api-key'
    },
    maintainFormat: true, // 维持格式
    // 其他参数...
});

图像处理

如果您的文件是图像格式，Zerox OCR 同样可以进行处理：

const result = await zerox({
    filePath: 'path/to/your/image.jpg',
    credentials: {
        apiKey: 'your-api-key'
    },
    // 其他参数...
});

数据提取

Zerox OCR 支持从文档中提取结构化数据。您需要定义一个 JSON Schema 并设置 extractOnly 为 true：

const result = await zerox({
    filePath: 'path/to/your/document.pdf',
    credentials: {
        apiKey: 'your-api-key'
    },
    extractOnly: true,
    schema: {
        // 定义您的 JSON Schema...
    },
    // 其他参数...
});