
论文阅读
文章平均质量分 92
一只荣
武汉大学在校生
展开
-
论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》
表格识别是一项很有挑战的任务。以前的方法从不同粒度的元素(行/列,文本区域)开始处理问题,这从某种程度上有损启发式规则,忽略了空细胞分裂等问题。基于表结构特征,我们发现获取文本区域的对齐bounding box可以有效地保持不同单元格的整个相关范围。然而,由于视觉歧义,很难准确预测对齐的bounding box。在这篇文章中,我们通过充分利用局部特征蕴含的文本信息和全局特征蕴含的单元格关系,来获得更可靠的对齐的bounding box。原创 2023-09-04 21:35:03 · 457 阅读 · 1 评论 -
论文阅读《Nougat:Neural Optical Understanding for Academic Documents》
科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。我们提出了Nougat,这是一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言,并证明了我们的模型在新的科学文档数据集上的有效性。原创 2023-09-04 21:19:05 · 1594 阅读 · 1 评论