[最新比赛] openEuler社区视频会议纪要自动生成 #¥ 18000

最新推荐文章于 2025-12-07 23:08:18 发布

转载最新推荐文章于 2025-12-07 23:08:18 发布 · 297 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://www.datafountain.cn/competitions/591

文章标签：

#计算机视觉 #自然语言处理 #数据挖掘 #机器学习 #深度学习

本次数据科学竞赛旨在开发一款可在openEuler22.03LTS上部署的视频处理软件，用于自动将社区会议视频转换成文字纪要。软件需支持CLI或API接口，并能有效处理.mp4格式视频。

CompHub目前已聚合了来自Kaggle、阿里天池等平台的上千场比赛，本账号同时会推送最新的比赛消息。

从此进入→ CompHub主页

比赛关键信息

主页: openEuler社区视频会议纪要自动生成 Competitions - DataFountain

奖励: ¥ 18000

时间: 2022-09-05 00:00 至 2022-12-20 23:59（详细时间安排见下文）

类型: 数据科学比赛

标签: 互联网、文本摘要、社会

以下内容转载自比赛主页

Part1赛题介绍

• 赛题背景

openEuler作为当前最为活跃的操作系统开源社区之一，吸引了来自360多家公司的超过10000名开发者参与其中；openEuler社区的开发活动以SIG组(Special Interests Group)[1]的形式进行组织，openEuler社区目前有约100个SIG组，各SIG组会定期召开线上视频会议，对SIG组的技术问题进行沟通和讨论，openEuler社区平均每个星期产生超过2400分钟的会议视频；这些视频会自动归档并上传到第三方视频网站；openEuler社区希望能对视频内容自动生成文字版会议纪要，以方便社区管理团队、社区运营团队、开发者通过文字阅读方式快速掌握各SIG组开发进展同时根据纪要内容生成关键字、摘要以及适当的视频封面。

• 赛题任务

开发可以在openEuler 22.03 LTS上独立部署的视频处理软件，通过CLI或API对指定的openEuler SIG组会议视频录像进行处理，对视频内容自动生成文字版会议纪要，并输出到指定位置。软件部署方式可以采用传统的单机部署也可以采用分布式容器化部署方案；输入视频格式为*.mp4。

• 出题专家

郑振宇，华为技术有限公司高级软件工程师，openEuler社区运营专家胡胜，华为技术有限公司主任软件工程师，openEuler社区基础设施负责人

Part2赛程规划

该赛题为训练赛，具体赛程安排如下：

▪ 2022/08/29，发布大赛赛题，选手可登录大赛官网报名；

▪ 2022/09/05，开启作品提交，每日每队最多可提交3次，以比赛期间参赛团队最后一次提交的文件为准进行作品评审；

▪ 2022/12/05（12:00），截止报名组队；

▪ 2022/12/09（24:00），截止作品提交；

▪ 2022/12/20，获奖名单公示。

备注： 组队及作品提交请在PC端进行操作； 以上赛程安排均为北京时间计算，赛程时间根据实际情况有调整的可能。

Part3奖项设置

• 赛题奖项

奖项	数量	奖金（税前）	证书/奖杯
一等奖	本赛题1支团队	人民币10,000元	由CCF颁发的权威证书 & CCF会员1个 & 大赛荣誉奖牌
二等奖	本赛题1支团队	人民币5,000元	由CCF颁发的权威证书 & CCF会员1个 & 大赛荣誉奖牌
三等奖	本赛题1支团队	人民币3,000元	由CCF颁发的权威证书 & CCF会员1个 & 大赛荣誉奖牌

▪ 若提交完整作品的团队低于10支，则存在奖项调整的可能。

Part4赛题任务

Part5数据简介

openEuler社区平均每个星期产生超过2400分钟的会议视频，这些视频会自动归档并上传到第三方视频网站；为开发者、用户提供会议内容回看，方便开发者、用户了解openEuler社区中各技术决策的背景和过程。训练集分为两部分，第一部分为上海元语信息科技有限公司贡献至OpenSLR的《Primewords Chinese Corpus Set 1》语音数据集，其中包含超过100小时的普通话语音数据；训练集的第二部分数据和测试集数据为从2022年7月20日TC会议中截取的视频片段。

Part6数据说明

训练集分为两部分：第一部分为上海元语信息科技有限公司贡献至OpenSLR的《Primewords Chinese Corpus Set 1》语音数据集，其中包含超过100小时的普通话语音数据；点击此处 查看及下载《Primewords Chinese Corpus Set 1》[1] 训练集第二部分包含训练集1-视频、训练集2-视频两份视频数据，采用.mp4格式；分别对应训练集1-纪要、训练集2-纪要两份纪要输出，纪要输出采用txt格式。

Part7评测标准

参赛者将所需要的各类文档、源代码等压缩打包后，通过大数据竞赛平台提交，主办方进行下载后评审，或者通过平台分发给各位专家进行评审，评价主要针对以下几个方面：

功能完整性：参赛作品是否能够完成题目预设功能需求，是否易于部署；
方案完整性：参赛作品是否有完整的设计文档、使用文档；
字错率(WER/CER)：主办方将使用参赛作品对预设视频进行处理，并将输出的会议纪要结果对比预设会议纪要进行比对，计算字错率，字错率越低方案越优秀；字错率计算采用以下公式： WER = (S + D + I)/(S + D + C)

其中：

▪ S为被替换的字符

▪ D为被删除的字符

▪ I为被插入的字符

▪ C为正确的字符