28、迈向安全的基于深度学习系统的人在回路学习方法

迈向安全的基于深度学习系统的人在回路学习方法

1. 人在回路学习概述

在学习阶段,人处于学习循环中,当自主智能体有进入灾难性状态的威胁时,人会进行干预并接管控制权。像无人机或机器人这类嵌入人工智能的系统,通过与真实环境交互来学习。在这个过程中,不安全的行动可能会对人类或财产造成严重损害。人持续参与学习循环以进行安全探索,可防止灾难性行动的发生。

学习干预(LfI)是提高安全性的一种有前景的方法,但它的主要缺点是在长时间的训练过程中让人持续参与成本高且耗时,例如在复杂环境中控制自动驾驶车辆或无人机的任务就是如此。

学习评估(LfE)方法中,在自主系统执行任务时,人提供评估反馈,而自主系统负责确定策略。人在这里充当监督者,为自主系统提供实时评估反馈,从而塑造其策略。反馈方式多样,如“好”或“坏”的二元反馈,或在多个策略中选择最佳方案。这种方法的优点是,人只需理解期望的目标,无需指定实现该目标的底层策略。不过,其挑战在于人要能快速响应并评估行动。例如,在模拟器中放慢环境速度虽能实现这一点,但会增加训练时间和让人长时间参与的成本。此外,在复杂环境中,人工智能智能体可能难以将提供的反馈与具体行动对应起来,而且人的评估反馈可能具有主观性。

主动学习方法更适用于分类和回归等任务,这些任务可能是自主系统某些组件的一部分。主动学习可视为示范学习的一种变体,因为人会实时提供标签。总体而言,示范学习(LfD)、学习干预(LfI)和学习评估(LfE)代表了人在学习过程中在线参与循环的机制,是本文研究的重点。

2. 常见人在回路学习方法比较分析

在安全关键的自主系统中,与传统人工智能系统注重性能不同,安全性更为重要。此外,当学习过程涉及人时,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值