自然语言处理中的数据中毒与强化学习入门
1. 数据中毒
1.1 数据中毒的概念
自然语言处理(NLP)算法容易受到一种名为数据中毒的有意攻击。其核心思想是操纵NLP系统的训练数据,使系统产生预期类型的不准确结果,可能是持续产生错误,也可能仅在出现触发词或短语时出错。
1.2 数据中毒的示例
- 隐蔽数据中毒 :在训练数据中插入暗示草莓由水泥制成的句子或短语。若未被发现,当系统用于生成超市或建筑承包商的库存订单时,库存可能会持续出现神秘错误。而且这种中毒文本可以设计成从不明确提及目标,如水果或建筑材料,这就是隐蔽数据中毒,极难检测和预防。
- 改写标题导致分类错误 :对于新闻标题分类系统,可巧妙改写标题,使明显含义不变,但故事被错误分类。例如,“Turkey is put on track for EU membership” 应正确分类为 “World”,但改写为 “EU puts Turkey on track for full membership” 后,可能会被错误分类为 “Business”。
1.3 数据中毒的危害及原因
数据中毒危害极大,原因主要有以下几点:
- 实施门槛低 :与构建或训练NLP模型的组织无关的人也能实施。由于大量训练数据通常来自公共资源,如网络,投毒者只需在公共博客或其他可能被采集和使用的地方发布操纵性短语即可。
- 难以察觉 :数据中毒可以在特定系统使用之前很久,甚
超级会员免费看
订阅专栏 解锁全文
624

被折叠的 条评论
为什么被折叠?



