54、自然语言处理中的数据中毒与强化学习入门

自然语言处理中的数据中毒与强化学习入门

1. 数据中毒

1.1 数据中毒的概念

自然语言处理(NLP)算法容易受到一种名为数据中毒的有意攻击。其核心思想是操纵NLP系统的训练数据,使系统产生预期类型的不准确结果,可能是持续产生错误,也可能仅在出现触发词或短语时出错。

1.2 数据中毒的示例

  • 隐蔽数据中毒 :在训练数据中插入暗示草莓由水泥制成的句子或短语。若未被发现,当系统用于生成超市或建筑承包商的库存订单时,库存可能会持续出现神秘错误。而且这种中毒文本可以设计成从不明确提及目标,如水果或建筑材料,这就是隐蔽数据中毒,极难检测和预防。
  • 改写标题导致分类错误 :对于新闻标题分类系统,可巧妙改写标题,使明显含义不变,但故事被错误分类。例如,“Turkey is put on track for EU membership” 应正确分类为 “World”,但改写为 “EU puts Turkey on track for full membership” 后,可能会被错误分类为 “Business”。

1.3 数据中毒的危害及原因

数据中毒危害极大,原因主要有以下几点:
- 实施门槛低 :与构建或训练NLP模型的组织无关的人也能实施。由于大量训练数据通常来自公共资源,如网络,投毒者只需在公共博客或其他可能被采集和使用的地方发布操纵性短语即可。
- 难以察觉 :数据中毒可以在特定系统使用之前很久,甚

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值