本文是LLM系列文章,针对《Nougat: Neural Optical Understanding for Academic Documents》的翻译。
摘要
科学知识主要以PDF的形式存储在书籍和科学期刊中。然而,PDF格式会导致语义信息的丢失,尤其是数学表达式。我们提出了Nougat(学术文献的神经光学理解),这是一个视觉转换器模型,它执行光学字符识别(OCR)任务,将科学文献处理成标记语言,并在新的科学文献数据集上证明了我们的模型的有效性。所提出的方法通过弥合人类可读文件和机器可读文本之间的差距,为在数字时代提高科学知识的可及性提供了一个有希望的解决方案。我们发布了模型和代码,以加速未来科学文本识别的工作。
1 引言
2 相关工作
3 模型
4 数据集
5 结果与验证
5.5 局限性与未来工作
实用
新型的实用性受到许多因素的限制。首先,第5.4节中概述的重复问题。该模型是在研究论文上训练的,这意味着它在具有类似结构的文档上尤其有效。但是,它仍然可以准确地转换其他类型的文档。
几乎每个数据集样本都是英文的。对一个小样本的初步测试表明,该模型与其他基于拉丁语的语言的性能是令人满意的,尽管这些语言中的任何特殊字符都将被拉丁字母表中最接近的对等字符所取代。非拉丁文字语言会导致即时重复。
生成速度
在配备NVIDIA A10G显卡和24GB VRAM的机器上,我们可以并行处理6页。生成速度在很大程度上取决于任何
Nougat是一种视觉转换器模型,专注于学术文献的光学字符识别,将PDF转换为标记语言。它在科学文献数据集上表现出色,尽管存在局限性,如非拉丁文字处理和重复问题。未来工作将解决这些问题,提高模型的一致性和效率。
已下架不支持订阅
234

被折叠的 条评论
为什么被折叠?



