CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!
更多比赛信息见 CompHub主页
以下内容摘自比赛主页(点击文末阅读原文进入)
Part1赛题介绍
题目
ICDAR2023 数字原生视频文本问答竞赛
举办平台
主办方
背景
ICDAR 2023 BDVT-QA (Competition for Born Digital Video Text Question Answering)挑战赛即将开启,并开放业内第一个基于数字原生视频文本问答的数据集。竞赛聚焦视频文字的关键技术问题的研究和探索,旨在与全球科研人才一同推动视频文字相关的应用和发展。
视频作为移动互联网时代最常见的内容服务,在购物、直播、短视频、和社交等邻域扮演着越来越重要的角色。视频中的文字作为视频中的显著特征,是关键信息的载体和媒介。数字原生视频是相对于自然场景视频而言的分类,其内容往往通过后期的制作和处理,才会对外传播,我们常见的视频动画、特效和提示词都是数字原生的重要对象。因此在数字原生视频中的文字,有比自然场景视频的文字更高的出现频率,并有更为明显的意图性。
视频文字问答主要针对视频中的文字进行提问和回答。数据集的制作过程中侧重选择有视频文字特色的数据,(1)文字有较多动画和特效,如渐入渐出,放大缩小等;(2)文字随着载体有变化的运动轨迹,如运动中的富文本商品等;(3)问题的答案需要处理多帧的文本,如安装某个工具的第几步等。竞赛主要设计了两个赛道。第一个赛道关于视频中的文本数字化,相比已有的视频文本数据集,会更加侧重于视频文字的融合和去重。第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,也是我们思考数字原生视频OCR的最终目的后做出的设置,即,机器应该在完成视频OCR的融合后去理解整段且分句展示的文本内容。需要强调的是,为了让算法研究更加聚焦于视频文字本身,题目的设置尽最大可能避免过度依赖图文关联的多模态问题和常识的知识图谱问题。
Part2时间安排
日期 | 内容 |
---|---|
2023.1.5 | 竞赛主页公布(阿里巴巴天池平台) |
2023.2.15 | 训练集示例公布 评测方法公布 |
2023.3.1 | 网站开放注册 训练集全量开放 |
2023.3.15 | 测试集开放 网站开放结果上传 |
2023.3.25 | 参赛队伍上传结果的截止日期 |
Part3奖励机制
每个赛道奖金共计3500美元,各名次获奖金额如下(税前):
-
第一名:$2000
-
第二名:$1000
-
第三名:$500
Part4赛题描述
赛道1 :端到端视频文字识别
任务一主要衡量算法对于视频文本识别内容的识别准确率。算法需要给出每一帧的文字识别和检测结果。本赛道的评价指标和之前的相关竞赛保持一致,我们将采用序列字符的评价方法,如召回、精度、F-score和归一化的编辑距离。文本的检测框IOU>0.5的是正确召回,它们会被用来计算结果。
赛道2 :视频文本问答
任务二的目标是给出视频中问题的正确答案。如前面所述,本QA任务更关注视频文本的难点,因此不会涉及图像理解和常识理解,它的挑战性来自于任务一结果的准确性和问题回复的准确性。参与本赛道的队伍,可以使用任务一的视频OCR标注结果直接完成问答任务,也可以把OCR的求解过程融进问答的算法,实现端到端的问答。 任务二的衡量指标是计算算法给出的答案和标准答案的Levenshtein相似度AVLS(Average Normalized Levenshtein Similarity),和ST-VQA的竞赛保持一致