Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

原创已于 2025-01-13 11:25:19 修改 · 733 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-01-02 20:35:57 首次发布

Zerox 是一款非常简单的通过OCR将各种文档输入给AI处理的方式。Zerox通过将各种文档（文档的布局、表格、图表、文字等）先通过OCR技术转换成图片，然后再将图片输入给AI，让AI将图片转换成Markdown格式输出。

Stars 数	7651
Forks 数	455

‌零样本OCR处理能力‌：Zerox OCR支持零样本OCR，意味着它无需针对特定任务进行大量的预先训练数据准备，就可以直接对各种文档进行处理。
‌支持多种文件格式‌：Zerox OCR支持多种常见的文件格式，如PDF、DOCX、图片（包括常见的图片格式如JPEG、PNG等）。
‌高精度识别‌：借助大型语言模型的优势，Zerox OCR能够对复杂的文本进行精准识别。无论是手写体、艺术字还是带有各种干扰因素的文字，它都能准确地提取其中的信息，大大减少了错误识别的概率，为用户提供高质量的识别结果。
‌Markdown格式输出‌：处理后的文本以Markdown格式返回。Markdown格式简洁明了，既保留了文本的基本格式，又便于后续的编辑和使用。用户可以轻松地对输出的文本进行进一步的整理、分析和排版，满足不同的需求。
‌强大的开发接口‌：特别是对于开发者来说，Zerox OCR提供了Node.js和Python的SDK。这使得开发者能够轻松地将Zerox OCR集成到现有的应用程序中，扩展应用的功能，实现自动化的OCR处理，提高工作效率和流程的自动化程度。