
OCR
文章平均质量分 96
莫叶何竹
微信公众号:莫叶何竹
个人主页:http://myhz0606.com/
展开
-
表格结构还原——SLANet
</td>来模拟空白单元格引入<td用于和rowspan,colpan来拼接,便于处理合并单元格的情况。label idlabel name说明0sossequence起始符1<thead>表格标题标记(始)2<tr>表格行标记(始)3原创 2025-02-22 11:59:39 · 847 阅读 · 0 评论 -
Nougat 深度剖析
图文对构造的整体pipeline由下图所示。从arXiv拿到的Tex源码出发拿到全篇文章的markdown标记,与pdf每页的图片与文本Branch1:TEX⟶LaTeXMLHTML⟶ParsermarkdownTEX⟶LaTeXMLHTML⟶ParsermarkdownBranch2:TEX⟶PDFLatexPDF⟶MuPDFpage1textpage2。原创 2023-09-05 14:23:01 · 988 阅读 · 0 评论