人工智能领域的国际顶级会议AAAI 2020将于2月7日-2月12日在美国纽约举办。近年来随着人工智能的兴起,AAAI每年举办的学术会议也变得越来越火热,每年都吸引了大量来自学术界、产业界的研究员、开发者投稿、参会。
以AAAI2019为例,论文提交数量高达7745篇,创下当年AAAI历史新高。和其他顶会一样,AAAI 2020显得更为火热,大会官方发送的通知邮件显示,最终收到有效论文8800篇,接收1591篇,接受率仅为20.6%。
作为人工智能领域最悠久、涵盖内容最广泛的学术会议之一,会议的论文内容涉及AI和机器学习所有领域,关注的传统主题包括但不限于自然语言处理、深度学习等,同时大会还关注跨技术领域主题,如AI+行业应用等。
此次腾讯优图实验室共计入选10篇论文,涉及速算批改、视频识别等。
以下为具体解读
1.从时间和语义层面重新思考时间域融合用于基于视频的行人重识别(Oral)
Rethinking Temporal Fusion for Video-basedPerson Re-identification on Semantic and Time Aspect (Oral)
关键词:行人重识别、时间和语义、时间融合
下载链接:https://arxiv.org/abs/1911.12512
近年来对行人重识别(ReID)领域的研究不断深入,越来越多的研究者开始关注基于整段视频信息的聚合,来获取人体特征的方法。然而,现有人员重识别方法,忽视了卷积神经网络在不同深度上提取信息在语义层面的差别,因此可能造成最终获取的视频特征表征能力的不足。此外,传统方法在提取视频特征时没有考虑到帧间的关系,导致时序融合形成视频特征时的信息冗余,和以此带来的对关键信息的稀释。
为了解决这些问题,本文提出了一种新颖、通用的时序融合框架,同时在语义层面和时序层面上对帧信息进行聚合。在语义层面上,本文使用多阶段聚合网络在多个语义层面上对视频信息进行提取,使得最终获取的特征更全面地表征视频信息。而在时间层面上,本文对现有的帧内注意力机制进行了改进,加入帧间注意力模块,通过考虑帧间关系来有效降低时序融合中的信息冗余。
实验结果显示本文的方法能有效提升基于视频的行人识别准确度,达到目前最佳的性能。
2.速算批改中的带结构文本识别
Accurate Structured-Text Spotting forArithmetical Exercise Correction
关键字:速算批改,算式检测与识别
对于中小学教师而言,数学作业批改一直是一项劳动密集型任务,为了减轻教师的负担,本文提出算术作业检查器,一个自动评估图像上所有算术表达式正误的系统。其主要挑战是,算术表达式往往是由具有特殊格式(例如,多行式,分数式)的印刷文本和手写文本所混合组成的。面临这个挑战,传统的速算批改方案在实际业务中暴露出了许多问题。本文在算式检测和识别两方面,针对实际问题提出了解决方案。针对算式检测中出现的非法算式候选问题,文中在无需锚框的检测方法CenterNet的基础上,进一步设计了横向边缘聚焦的损失函数。CenterNet通过捕捉对象的两个边角位置来定位算式对象,同时学习对象内部的信息作为补充,避免生成 ”中空“的对象,在算式检测任务上具有较好的适性。横向