视频审核中多模态应用

本文字数:5692

预计阅读时间:30分钟

目录

1. 背景

  1.1. 业务背景

  1.2. 解决方案探索

2. 项目解决方案

  2.1 多模态检测违规图片

  2.2 向量检索-需要支持快速检索和海量数据 

3. 项目成果与未来展望

  3.1 项目成果

  3.2 未来展望


01

背景

1.1 业务背景

在视频审核中,对于特定的违禁视频内容需要进行严格管控和封禁。例如:对于领导人在一些特定时期事件的丑化;视频中出现醒目的广告引导,这些广告最终可能指向境外一些赌博,淫秽网站;再有对于一些像是巴以冲突等时政事件的恶意抹黑。这些都需要审核系统在视频进审时可以快速识别并封禁这些内容。

基于此,审核系统需要实现以下两个目标:

  1. 对于进审的视频,检测视频中出现的违规内容;

  2. 对于历史视频,如果有了新的违规标准,需要进行历史数据召回,追查旧视频中违规内容,进行封禁。

1.2 解决方案探索

违规图片的检测,最先想到的方法就是建立违规图片数据库,视频进审时,针对视频关键帧提取图片特征,同图片违规数据库匹配,如果命中的话,则标记当前视频为违规视频。同时,记录当前视频的所有关键帧图片特征,如果后续需要历史召回的话,通过记录的关键帧特征库,进行历史召回。

审核系统大致上的思路也是这样的,但实际应用中,遇到了以下几个问题需要解决。

  1. 单纯的图像特征匹配,泛化能力不强 即如果多张违规图片,违规内容一致,且都只是整张图片的一部分的话,由于图片匹配是整张图片匹配,所以匹配效果并不理想。如下图所示:


  2. 图片特征数据存储量大,计算成本高 每天进审视频量大概有20w, 每个视频平均8张截图,假设每张图片的存储需要512个32位浮点数,那一张图片的存储量就是2KB,每天约有3GB。由于向量检索都是在内存中进行的,这样的内存成本无疑是巨大的。

基于以上问题,审核系统分别从两个方面提出解决方案:

  1. 针对泛化能力不强的问题,分析当前遇到的问题,本质上是图片特征匹配只能对整张图进行特征提取,如果图中违禁内容只是图的一部分,很难提前预知违禁位置。那有没有更抽象的方法提取到图中违禁内容呢?我们认为文字可以对视觉内容进行更高层次的抽象总结。例如:上一节的例子中,如果我想给别人描述一下这三张图片的违禁内容,我可能会总结成“三个有彩票投注广告的图片”。因此,我们可以同时对进审图片进行图图、图文特征匹配增加召回率。同时针对特征较为集中的图片,微调模型,使用微调后模型直接给出是否违规的结论,不需要再次进行数据匹配;

  2. 针对数据成本问题,分析业务目标,发现两个业务目标对于数据检索的要求是不一样的。进审时检测,要求实时性,同时这时违禁图片向量库数据量并不会很大,完全可以放在内存中建立索引,实时检测。而历史数据召回,数据量大,要求违禁数据全量召回,但是实时性要求并不高,这块数据是可以放到磁盘中存储的,同时对于数据中的标量数据,可以在召回中进行标量过滤,过滤后再对向量数据进行检索。

01

项目解决方案

2.1 多模态检测违规图片

基于上一节描述的理由,我们这面采用一种可以对齐图片、文字特征表达的模型,来对进审图片进行检测。可以同时对图片的图像、文字特征共同检测。此类模型市面上较为成熟的 就是 clip及其衍生的各种变种模型了。由于我们的下游任务是图文检索,所以使用原始的基线版本,然后我们再对归一化后的特征进行向量相似度计算就可以了,不需要使用像是LSeg、GroupVit 这种为了下游任务专门训练的模型。
同时,由于clip模型本身是使用英文+图片训练的,对于中文,虽然有中文版本,但是中文效果不是很好的问题,我们这面使用了阿里达摩院开源的Chinese-clip版本。

2.1.1 模型简介

模型的简单结构如下图所示:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值