PubLayNet 开源项目教程
【免费下载链接】PubLayNet 项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet
1. 项目介绍
PubLayNet 是一个大型文档图像数据集,其布局使用边界框和多边形分割进行注释。文档的来源是 PubMed Central Open Access Subset(商业用途集合)。注释是通过匹配 PubMed Central Open Access Subset 中的 PDF 格式和 XML 格式自动生成的。更多详细信息可以在我们的论文 "PubLayNet: largest dataset ever for document layout analysis" 中找到。
2. 项目快速启动
2.1 下载数据集
你可以通过以下命令下载 PubLayNet 数据集:
curl -o <YOUR_TARGET_DIR>/publaynet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz
或者使用 wget:
wget -O <YOUR_TARGET_DIR>/publaynet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz
2.2 解压数据集
下载完成后,解压数据集:
tar -xzf <YOUR_TARGET_DIR>/publaynet.tar.gz -C <YOUR_TARGET_DIR>
2.3 查看数据集
解压后,你可以在 <YOUR_TARGET_DIR> 目录下找到数据集文件。数据集包含训练集和测试集的图像和注释文件。
3. 应用案例和最佳实践
3.1 文档布局分析
PubLayNet 数据集可以用于训练和评估文档布局分析模型。例如,可以使用 Faster-RCNN 或 Mask-RCNN 模型来检测文档中的不同布局元素(如标题、段落、表格等)。
3.2 科学文献解析
PubLayNet 数据集还被用于 ICDAR 2021 科学文献解析竞赛。参赛者可以使用该数据集来训练和评估他们的模型,以自动解析科学文献中的布局信息。
4. 典型生态项目
4.1 PubTabNet
PubTabNet 是一个用于基于图像的表格识别的大型数据集,包含超过 568,000 张表格图像,并带有相应的 HTML 表示。表格区域是使用生成 PubLayNet 的相同算法识别的。
4.2 ICDAR 2021 科学文献解析竞赛
ICDAR 2021 科学文献解析竞赛使用了 PubLayNet 数据集,参赛者需要开发模型来自动解析科学文献中的布局信息。
通过以上步骤,你可以快速上手使用 PubLayNet 数据集,并了解其在文档布局分析和科学文献解析中的应用。
【免费下载链接】PubLayNet 项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



