学术文档要素分类挑战赛：利用机器学习和深度学习自动化整理学术文档 #￥30,000-优快云博客

比赛聚焦于学术文档中14类要素的自动分类，利用机器学习和深度学习技术，旨在提升文档管理效率，提供一个竞技平台促进研究和应用发展。参赛者需处理多样化和复杂的文档结构，通过F1-score评估模型性能。

CompHub[1] 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…）比赛。本账号会推送最新的比赛消息，欢迎关注！

以下信息由AI辅助创作，仅供参考

比赛名称

学术文档要素分类挑战赛[2] (见文末阅读原文)

Part1一、赛事背景

随着数字化时代的发展，人们越来越依赖电子文档来记录、传递和分享信息。在学术场景中，文档的要素包括标题、作者、邮箱、参考文献、正文、图片、表格等，它们都是文档中不可或缺的元素。然而，在实际应用中，需要将这些要素进行分类，以便更好地管理和利用文档。例如，在学术出版机构中，需要将一篇文章中的标题、作者、摘要、正文、参考文献等进行识别与分类。

针对这个问题，本次比赛——“学术文档要素分类挑战赛”，旨在通过利用机器学习和深度学习等先进技术，在给定学术文档图像、要素位置和文本内容的情况下进行要素分类，从而实现对学术文档的结构恢复与自动化整理。该比赛涉及14种不同的分类类别，包括标题、作者、邮箱、章节标题、正文、图片、表格等。这一技术不仅可以提高学术文档的分类效率，还可以减轻人工分类的负担，为科研人员和学术出版机构提供更加高效的管理和利用学术文档的方式。

本次比赛旨在为学术文档要素分类问题提供一个交流和切磋的平台，促进相关领域的研究和应用。希望通过本次比赛的努力，可以进一步为学术文档分类领域的研究和应用做出一定的贡献，提高分类的准确性和效率。

Part2二、赛事任务

尽管在学术文档分类领域，已经有许多相关的研究成果，但是要素分类仍然是一个具有挑战性的问题。在实际应用中，许多学术文档中的要素种类繁多，位置和大小不一，同时还存在一定的混淆和噪声，这对于算法的准确性和鲁棒性都提出了更高的要求。因此，本次比赛将提供一个具有挑战性的数据集，以检验参赛者算法的准确性和鲁棒性。数据集中将会包含来自多个学科、多种版式下的文档图像、要素位置及其文本内容，比赛者需要构建分类系统来对各个要素进行分类。

Part3三、评审规则

1.数据说明

本次比赛为参赛选手提供了4类数据：文档图像、要素位置、文本内容、分类类别。文档图像为原始论文的PDF文件转换而成的图片，要素位置通过矩形框的左上、右下坐标给出，文本内容指由矩形框中的文本解析结果，分类类别一共包含标题、作者、邮箱、章节标题、正文、图片、表格在内的14种类别。训练数据包含来自500份文档的7043张文档图像，选手可以自由划分训练、验证集进行模型训练。此次比赛只包含一个阶段，测试集不含分类类别，其他的内容均与训练集数据相同。

数据类别	变量名称	数值格式	解释
文档图像	无	png	论文PDF文件通过PDF2IMG转换而成的图片
要素位置	box	list of int	[x1,y1,x2,y2]，(x1,y1)为矩形框左上角坐标，(x2,y2)为矩形框右下角坐标
文本内容	text	string	矩形框中的文本解析结果
分类类别	class	string	包含标题、作者、邮箱、章节标题、正文、图片、表格在内的14种类别

分类类别说明如下：

分类类别名称	解释
title	文章的主标题，一般只在首页出现
author	文章的作者名字
mail	文章作者的联系方式
affiliation	文章作者的所属机构
section	章节标题
fstline	段落的首行文本
paraline	段落中的其他行文本
table	表格区域
figure	图像区域
caption	图像或者表格的描述文本
equality	独立的公式区域
footer	页脚，例如页数、期刊名称等，位于页面正下方
header	页眉，例如页数、论文标题等，位于页面正上方
footnote	文章内容的注释，例如链接、作者信息等，位于正文区域的左下方或者右下方

2.评估指标

本模型依据提交的结果文件，采用对所有类别的F1-score取平均得到的Macro-F1-score进行评价。

（1）对于每一类要素（例如要素X），统计

（对于标签为X类别的要素，模型正确预测为X类别），（模型将其他类别的要素预测为X类别），（模型将X类别的要素预测为其他类别）

（2）通过第一步的统计值计算该类别要素的precision和recall，计算公式如下：

（3）通过第二步计算结果计算该类别要素的F1-score，计算方式如下：

（4）通过第三步计算结果，计算所有类别要素的F1-score的平均值作为最终评价指标，计算方式如下，此处N=14，含义为类别数：

3.评测及排行

1、本赛题均提供下载数据，选手在本地进行算法调试，在比赛页面提交结果。

2、排行按照得分从高到低排序，排行榜将选择团队的历史最优成绩进行排名。

Part4四、作品提交要求

1、文件格式：按照zip格式提交

2、文件大小：无要求

3、提交次数限制：每支队伍每天最多3次

4、文件详细说明：编码为UTF-8，参考提交示例将test-anno文件夹中的所有文本类别补充完整，压缩为submit.zip文件后上传

5、前三名的选手需要提交模型、源代码和说明文档

Part5五、赛程规则

本赛题实行一轮赛制

赛程周期

2023年5月6日-2023年7月26日

1、5月6日10：00发布训练集、开发集、测试集（即开启比赛榜单）

2、比赛作品提交截止日期为7月26日17：00，公布名次日期为7月27日10：00

现场答辩

1、最终前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行答辩

2、答辩以（10mins陈述+5mins问答）的形式进行

3、根据作品成绩和答辩成绩综合评分（作品成绩占比70％，现场答辩分数占比30％）

Part6六、奖项设置

入围决赛
- 科大讯飞1024开发者节全场通票
- 决赛入围证书
- 科大讯飞创孵基地绿色入驻通道
- A.I.服务市场入驻特权
决赛胜出
- 决赛奖金，赛道TOP3选手将阶梯获得赛道奖金，第一名15000元、第二名10000元、第三名5000元
- 参与1024全球开发者节颁奖盛典，现场授予奖金、证书与定制奖杯
- A.I.全链创业扶持
- 绿色就业通道&实习就业Offer

参考资料

[1]

CompHub主页: https://comphub.notion.site/CompHub-c353e310c8f84846ace87a13221637e8

[2]

学术文档要素分类挑战赛: https://challenge.xfyun.cn/topic/info?type=academic-documents