阅读笔记-Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Co_exploiting vision-language model for image re-iden-优快云博客

研究背景：
社交媒体平台越来越多地被恶意行为者用来分享不安全的内容，例如描绘性行为、网络欺凌和自残的图片。这些内容对用户尤其是未成年人和对此类内容敏感的用户构成了威胁。为了保护用户，社交媒体平台依法需要采取措施，包括使用人工智能（AI）和人工审核来对这些图像进行模糊处理，使其更安全。然而，这一过程面临两个关键问题：首先，需要为模糊处理不安全图像的决定提供准确的理据；其次，需要在最小化敏感区域的模糊处理的同时，保留图像的安全区域。
过去方案和缺点：
现有的视觉推理方法在处理不安全图像时存在严重限制，因为它们无法提供基于特定图像属性的理据，例如网络欺凌图像中的粗鲁手势或性暗示图像中的敏感身体部位。此外，当前的图像分割技术无法最小化地识别需要模糊处理的区域，这妨碍了需要完整安全区域详细信息的调查工作。
本文方案和步骤：
本文提出了一种名为ConditionalVLM（条件视觉语言模型）的新方法，该方法利用预训练的不安全图像分类器来提供基于不安全图像属性的准确理据。然后，提出了一种反事实解释算法，通过首先使用不安全图像分类器的归因矩阵来指导更优的子区域分割，然后通过知情贪婪搜索来确定修改分类器输出所需的最小子区域数量。这个过程包括两个主要步骤：首先，使用ConditionalVLM对图像进行视觉推理；其次，通过计算分类器归因矩阵并利用这些信息来指导贝叶斯超像素分割，以实现对不安全区域的最小化模糊处理。
本文实验和性能：
研究者在来自社交网络的未筛选数据上进行了广泛的实验，强调了所提出方法的有效性。实验结果表明，ConditionalVLM在描述不安全图像方面的表现优于其他最先进的图像到文本模型。此外，反事实子对象解释方法在生成不安全图像的因果解释方面也显示出有效性，能够在保持图像大部分区域不变的同时，成功地模糊处理不安全区域。

阅读总结报告：