上海交大发布「人类行为理解引擎」:深度学习+符号推理,AI逐帧理解大片中每个动作...

上海交通大学卢策吾团队提出HAKE,通过两阶段方法理解视频中的人类动作,首先构建活动-基元知识库,再用逻辑规则推理基元,提升实例级活动检测性能。应用于医疗、机器人等领域.

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

博雯 发自 凹非寺
量子位 | 公众号 QbitAI

看图看片,对现在的AI来说早已不是什么难事。

不过让AI分析视频中的人类动作时,传统基于目标检测的方法会碰到一个挑战:

静态物体的模式与行为动作的模式有很大不同,现有系统效果很不理想。

现在,来自上海交大的卢策吾团队基于这一思路,将整个任务分为了两个阶段:

先将像素映射到一个“基元活动”组成的过度空间,然后再用可解释的逻辑规则对检测到的基元做推断。

ad074c7611022f94446528072c874d99.png 左:传统方法,右:新方法

新方法让AI真正看懂剧里的卷福手在举杯(hold),右边的人在伸手掏东西(reach for):

b7b757ef76e0e50070492c46585f3012.gif

对于游戏中的多人场景也能准确分辨每一个角色的当前动作:

222734e9df43e76019bc84c7782fe4d6.gif

甚至连速度飞快的自行车运动员都能完美跟随:

45c72bf92b51dcc7c57c696343adea03.gif

能够像这样真正理解视频的AI,就能在医疗健康护理、指引、警戒等机器人领域应用。

这篇论文的一作为上海交大博士李永露,曾在CVPR 2020连中三篇论文。

目前相关代码已开源。

知识驱动的行为理解

要让AI学习人类,首先要看看人类是怎么识别活动的。

比如说,要分辨走路和跑步,我们肯定会优先关注腿部的运动状态。

再比如,要分辨一个人是否是在“喝水”,那么他的手是否在握杯,随后头又是否接触杯子,这些动作就成为了一个判断标准。

这些原子性的,或者说共通的动作就可以被看作是一种“基元”(Primitive)。

66c701f83158aeb515d75ae966068c43.png

我们正是将一个个的基元“组合”推理出整体的动作,这就是就是人类的活动感知。

那么AI是否也能基于发现这种基元的能力,将其进行组合,并编程为某个具有组合概括性的语义呢?

因此,卢策吾团队便提出了一种知识驱动的人类行为知识引擎,HAKE(Human Activity Knowledge Engine)。

这是一个两阶段的系统:

  1. 将像素映射到由原子活动基元跨越的中间空间

  2. 用一个推理引擎将检测到的基元编程为具有明确逻辑规则的语义,并在推理过程中更新规则。

fadd22436ee5a56bdf4d6c952b81eee5.png

整体来说,上述两个阶段也可以分为两个任务。

首先是建立一个包括了丰富的活动-基元标签的知识库,作为推理的“燃料”。

在于702位参与者合作之后,HAKE目前已有35.7万的图像/帧,67.3万的人像,22万的物体基元,以及2640万的PaSta基元。

0b82f2ec10e92cdc9f731fecf2748d40.png

其次,是构建逻辑规则库和推理引擎。

在检测到基元后,研究团队使用深度学习来提取视觉和语言表征,并以此来表示基元。

然后,再用可解释的符号推理按照逻辑规则为基元编程,捕获因果的原始活动关系。

18c72161ee5d7825b34a97aaa0f104d8.png

在实验中,研究者选取了建立在HICO基础上,包含4.7万张图片和600次互动的HICO-DET,以及包含430个带有时空标签的视频的AVA,这两个大规模的基准数据集。

在两个数据集上进行实例级活动检测:即同时定位活动的人/物并对活动进行分类。

结果,HAKE,在HICO-DET上大大提升了以前的实例级方法,特别是在稀有集上,比TIN提高了9.74mAP(全类平均精度),HAKE的上限GT-HAKE也优于最先进的方法。

在AVA上,HAKE也提高了相当多的活动的检测性能,特别是20个稀有的活动。

05fe8d4ecabae611d02da47f7816aa42.png

通讯作者曾为李飞飞团队成员

论文的通讯作者是上海交通大学的卢策吾,也是计算机科学的教授。

在加入上海交大之前,他在香港中文大学获得了博士学位,并曾在斯坦福大学担任研究员,在李飞飞团队工作。

现在,他的主要研究领域为计算机视觉、深度学习、深度强化学习和机器人视觉。

c445345573fb63cd884384f61af4f1f6.png

一作李永露为上海交通大学的博士生,此前他曾在中国科学院自动化研究所工作。

在CVPR 2020他连中三篇论文,也都是围绕知识驱动的行为理解(Human Activity Understanding)方面的工作。

892a1c14f20a58e4c92e85a350a82142.png

论文:
https://arxiv.org/abs/2202.06851v1

开源链接:
https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

参考链接:
[1]http://hake-mvig.cn/home/
[2]https://www.bilibili.com/video/BV1s54y1Y76s
[3]https://zhuanlan.zhihu.com/p/109137970

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值