技术干货 | 面向 AIGC 的内容风控新技术

大模型和人工智能生成(AIGC)等先进技术的发展为我们带来了许多新的应用红利,但与此同时也带来了一系列安全隐患。例如,文本问答技术可能生成负面回答内容,文本生成图片技术可以用于合成各种类型的不适合在公开场合传播的敏感图片。为了缓解这些安全问题,首先模型本身需要在训练过程中进行面向安全领域的内在技术调整,以通过基础的风险评测,达到基本安全可用。除此之外,为了进一步提升实际应用的可控性和完善安全流程,引入独立的第三方内容检测能力作为安全护盾是至关重要的。在新技术推广应用的过程中,这种独立的检测机制能够提供的额外保障,确保生成的内容符合道德、法律和社会准则。这种独立的第三方检测能力可以辅助模型本身的安全调整,有效减少潜在风险,形成一个有机的双重保障系统。

大模型和人工智能生成(AIGC)新技术的广泛应用让内容安全检测直接面临了三个严峻的挑战:

  • 有害内容的生产速度变得更快,可借助网络传播迅速蔓延,这要求第三方内容检测能够以更快速、高效的方式进行检测。

  • 有害内容的种类不断新增和变化,包括各类言论攻击、虚假信息、违法内容的变种,需要具备更敏捷、灵活的应变能力。

  • 随着各类风格生成和融合技术的进一步发展,有害内容的识别难度随技术发展而增大,需要更强劲更细致的检测能力。

事实上,即使在 AIGC 能力取得全面发展之前,上述提到的生产速度快、变化多、难度高的问题,在内容安全场景里长期存在,因此相对应的技术方案和处理思路已经得到了一定的积累,能够初步应对较为简单的 AIGC 安全问题。但在 AIGC 兴起的新形势下,困难和挑战明显被抬高了新的层级,从后端算法角度进行一轮完整的技术升级具有必要性和现实意义。

作为独立的内容检测能力,结合早先的实践经验,从技术角度可能可以通过三个方面的升级来应对新形势下的困难和挑战。

  • 在训练数据层面,建立更丰富、多样化的训练数据集至关重要。这样的数据集应该包含各种类型的有害内容示例,以便训练模型更全面地识别和检测不良内容。还需要考虑数据的时效性,及时更新数据集以适应新出现的有害内容形式。

  • 在模型训练层面,可以采用基于大规模预训练模型的小样本学习方法。预训练模型通常具备强大的语义理解和特征提取能力,但在面对新出现的有害内容时可能表现不佳。通过在小样本上进行微调和训练,可以使模型更好地适应新的内容类型,并提高检测的准确性和鲁棒性。

  • 在算法策略层面,多元信息融合、多模态融合是一个值得探索的方向。例如,多模态融合的策略通过将文本维度和图像维度信息进行联合分析和综合评估,可以更好地识别潜在的有害内容。

由上述分析我们可以看出,面向 AIGC 的内容风控技术升级,在算法优化部分,本质上是一个面向特定领域、复杂对抗、困难案例的效果优化过程,而在这一过程,充分借助当前 AIGC/大模型技术的发展成果,提升内容安全垂直领域的防控能力,可能是一个关键步骤。

接下来本文将沿着上述提到的三个技术升级方向,结合易盾近期自身围绕 AIGC 的技术实践,围绕“用魔法打败魔法”的建设思路,分享相关能力的技术升级方案和细节。

图片

技术实践

 更高效的数据收集 

这部分内容将围绕数据的生成、挖掘、标注三个方面进行展开讨论,通过AIGC能力构建更高效的数据收集流程。

1. 利用跨模态生成技术扩增训练数据

训练数据是算法模型搭建的基础,在内容安全场景下,由于出现频次和数据分布等原因,数据缺乏是一种常见的现象,通过文生图、图生图等方式进行训练数据扩充,是一种较为直观的思路。接下来将以风格化人物识别任务为例进行方法介绍,该任务的主要目的是识别出将目标真实人物抽象化成卡通人物形象的图片素材。我们知道当前一系列 AI 换脸工具已经提供风格化人脸的功能,可以快速实现人物风格化,从而引发了新型的二创敏感素材风险。经过我们对实际漏误判、常见风格化类型的观察发现,从算法优化的角度出发,存在着以下难点:

  • 现存样本数量稀少、分布稀疏,难以大批量集中发现和收集。

  • 样本分布呈现特征多样性,从面部、穿着、举止等各种维度的风格化图像皆有,需要识别的范围广。

为了解决算法优化的难点,最终提高模型识别的泛化性和准确性,我们将针对实际常见的漏判误判,基于扩散模型优秀的图像生成能力和强大生成可控性,通过批量合成相应的风格化数据来优化深度学习模型。

具体实施方法如下:分析实际风格化数据的特点,并通过 Stable Diffusion 对不同类型的风格化图像进行针对性生成。其中包括两种具体方法:

  • 一是基于 txt2img 生成基于着装、动作的风格化类数据;

  • 二是基于 inpainting 对脸部 ma

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值