

本文字数:5692字
预计阅读时间:30分钟
目录
1. 背景
1.1. 业务背景
1.2. 解决方案探索
2. 项目解决方案
2.1 多模态检测违规图片
2.2 向量检索-需要支持快速检索和海量数据
3. 项目成果与未来展望
3.1 项目成果
3.2 未来展望
01
背景
1.1 业务背景
在视频审核中,对于特定的违禁视频内容需要进行严格管控和封禁。例如:对于领导人在一些特定时期事件的丑化;视频中出现醒目的广告引导,这些广告最终可能指向境外一些赌博,淫秽网站;再有对于一些像是巴以冲突等时政事件的恶意抹黑。这些都需要审核系统在视频进审时可以快速识别并封禁这些内容。
基于此,审核系统需要实现以下两个目标:
对于进审的视频,检测视频中出现的违规内容;
对于历史视频,如果有了新的违规标准,需要进行历史数据召回,追查旧视频中违规内容,进行封禁。
1.2 解决方案探索
违规图片的检测,最先想到的方法就是建立违规图片数据库,视频进审时,针对视频关键帧提取图片特征,同图片违规数据库匹配,如果命中的话,则标记当前视频为违规视频。同时,记录当前视频的所有关键帧图片特征,如果后续需要历史召回的话,通过记录的关键帧特征库,进行历史召回。
审核系统大致上的思路也是这样的,但实际应用中,遇到了以下几个问题需要解决。
单纯的图像特征匹配,泛化能力不强 即如果多张违规图片,违规内容一致,且都只是整张图片的一部分的话,由于图片匹配是整张图片匹配,所以匹配效果并不理想。如下图所示:

图片特征数据存储量大,计算成本高 每天进审视频量大概有20w, 每个视频平均8张截图,假设每张图片的存储需要512个32位浮点数,那一张图片的存储量就是2KB,每天约有3GB。由于向量检索都是在内存中进行的,这样的内存成本无疑是巨大的。
基于以上问题,审核系统分别从两个方面提出解决方案:
针对泛化能力不强的问题,分析当前遇到的问题,本质上是图片特征匹配只能对整张图进行特征提取,如果图中违禁内容只是图的一部分,很难提前预知违禁位置。那有没有更抽象的方法提取到图中违禁内容呢?我们认为文字可以对视觉内容进行更高层次的抽象总结。例如:上一节的例子中,如果我想给别人描述一下这三张图片的违禁内容,我可能会总结成“三个有彩票投注广告的图片”。因此,我们可以同时对进审图片进行图图、图文特征匹配增加召回率。同时针对特征较为集中的图片,微调模型,使用微调后模型直接给出是否违规的结论,不需要再次进行数据匹配;
针对数据成本问题,分析业务目标,发现两个业务目标对于数据检索的要求是不一样的。进审时检测,要求实时性,同时这时违禁图片向量库数据量并不会很大,完全可以放在内存中建立索引,实时检测。而历史数据召回,数据量大,要求违禁数据全量召回,但是实时性要求并不高,这块数据是可以放到磁盘中存储的,同时对于数据中的标量数据,可以在召回中进行标量过滤,过滤后再对向量数据进行检索。
01
项目解决方案
2.1 多模态检测违规图片
基于上一节描述的理由,我们这面采用一种可以对齐图片、文字特征表达的模型,来对进审图片进行检测。可以同时对图片的图像、文字特征共同检测。此类模型市面上较为成熟的 就是 clip及其衍生的各种变种模型了。由于我们的下游任务是图文检索,所以使用原始的基线版本,然后我们再对归一化后的特征进行向量相似度计算就可以了,不需要使用像是LSeg、GroupVit 这种为了下游任务专门训练的模型。
同时,由于clip模型本身是使用英文+图片训练的,对于中文,虽然有中文版本,但是中文效果不是很好的问题,我们这面使用了阿里达摩院开源的Chinese-clip版本。
2.1.1 模型简介
模型的简单结构如下图所示:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



