技术干货 | 面向 AIGC 的内容风控新技术

原创

于 2025-03-06 17:47:08 发布 · 771 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #业界资讯 #ai #开源

大模型和人工智能生成（AIGC）等先进技术的发展为我们带来了许多新的应用红利，但与此同时也带来了一系列安全隐患。例如，文本问答技术可能生成负面回答内容，文本生成图片技术可以用于合成各种类型的不适合在公开场合传播的敏感图片。为了缓解这些安全问题，首先模型本身需要在训练过程中进行面向安全领域的内在技术调整，以通过基础的风险评测，达到基本安全可用。除此之外，为了进一步提升实际应用的可控性和完善安全流程，引入独立的第三方内容检测能力作为安全护盾是至关重要的。在新技术推广应用的过程中，这种独立的检测机制能够提供的额外保障，确保生成的内容符合道德、法律和社会准则。这种独立的第三方检测能力可以辅助模型本身的安全调整，有效减少潜在风险，形成一个有机的双重保障系统。

大模型和人工智能生成（AIGC）新技术的广泛应用让内容安全检测直接面临了三个严峻的挑战：

有害内容的生产速度变得更快，可借助网络传播迅速蔓延，这要求第三方内容检测能够以更快速、高效的方式进行检测。
有害内容的种类不断新增和变化，包括各类言论攻击、虚假信息、违法内容的变种，需要具备更敏捷、灵活的应变能力。
随着各类风格生成和融合技术的进一步发展，有害内容的识别难度随技术发展而增大，需要更强劲更细致的检测能力。

事实上，即使在 AIGC 能力取得全面发展之前，上述提到的生产速度快、变化多、难度高的问题，在内容安全场景里长期存在，因此相对应的技术方案和处理思路已经得到了一定的积累，能够初步应对较为简单的 AIGC 安全问题。但在 AIGC 兴起的新形势下，困难和挑战明显被抬高了新的层级，从后端算法角度进行一轮完整的技术升级具有必要性和现实意义。

作为独立的内容检测能力，结合早先的实践经验，从技术角度可能可以通过三个方面的升级来应对新形势下的困难和挑战。

在训练数据层面，建立更丰富、多样化的训练数据集至关重要。这样的数据集应该包含各种类型的有害内容示例，以便训练模型更全面地识别和检测不良内容。还需要考虑数据的时效性，及时更新数据集以适应新出现的有害内容形式。
在模型训练层面，可以采用基于大规模预训练模型的小样本学习方法。预训练模型通常具备强大的语义理解和特征提取能力，但在面对新出现的有害内容时可能表现不佳。通过在小样本上进行微调和训练，可以使模型更好地适应新的内容类型，并提高检测的准确性和鲁棒性。
在算法策略层面，多元信息融合、多模态融合是一个值得探索的方向。例如，多模态融合的策略通过将文本维度和图像维度信息进行联合分析和综合评估，可以更好地识别潜在的有害内容。

由上述分析我们可以看出，面向 AIGC 的内容风控技术升级，在算法优化部分，本质上是一个面向特定领域、复杂对抗、困难案例的效果优化过程，而在这一过程，充分借助当前 AIGC/大模型技术的发展成果，提升内容安全垂直领域的防控能力，可能是一个关键步骤。

接下来本文将沿着上述提到的三个技术升级方向，结合易盾近期自身围绕 AIGC 的技术实践，围绕“用魔法打败魔法”的建设思路，分享相关能力的技术升级方案和细节。

技术实践

更高效的数据收集

这部分内容将围绕数据的生成、挖掘、标注三个方面进行展开讨论，通过AIGC能力构建更高效的数据收集流程。

1. 利用跨模态生成技术扩增训练数据

训练数据是算法模型搭建的基础，在内容安全场景下，由于出现频次和数据分布等原因，数据缺乏是一种常见的现象，通过文生图、图生图等方式进行训练数据扩充，是一种较为直观的思路。接下来将以风格化人物识别任务为例进行方法介绍，该任务的主要目的是识别出将目标真实人物抽象化成卡通人物形象的图片素材。我们知道当前一系列 AI 换脸工具已经提供风格化人脸的功能，可以快速实现人物风格化，从而引发了新型的二创敏感素材风险。经过我们对实际漏误判、常见风格化类型的观察发现，从算法优化的角度出发，存在着以下难点：