10、应对通用人工智能(AGI)风险的策略探讨

应对通用人工智能(AGI)风险的策略探讨

1. 易满足目标设计

设计AGI时,使其目标易于满足是一种可行的策略。例如,AGI只要持续接收外部奖励信号,就能获得接近最大的奖励。若人类怀疑其行为不当,可切断该信号。在这种情况下,即便AGI有十足的把握攻击人类,它也会倾向于与人类合作。此外,如果AGI只需使用人类可用资源的一小部分就能获得最大奖励,那么它就没有动力去夺取更多资源。

Bostrom提出了这种思路的一种变体,即AGI从人类控制器那里持续获取加密奖励令牌。其效用函数被设定为:从第一个奖励令牌获得“最大效用的99%”;从第二个奖励令牌获得“剩余效用潜力的99%”,以此类推。不过,这种方案也存在问题,AGI可能不信任人类会持续发送奖励,或者怀疑人类在不采取行动的情况下会陷入危险。

Orseau和Ring提出了“傻瓜策略”,即承诺AGI只要将自己变成无害的傻瓜,就能得到它想要的一切。在某些假设下,许多假设的AGI设计似乎可能会接受这一策略。

在相关研究中,Ring和Orseau探讨了AGI能够自我修改以获得最大奖励的后果。他们发现,某些类型的AGI会只关心自身的生存。理论上,人类可以承诺不威胁这类AGI,以换取它们同意接受AI隔离程序。但前提是,AGI必须相信人类能比它自己更好地保障其在外部威胁下的生存。Hibbard则讨论了能够避免Ring和Orseau所描述行为的AGI类型。

2. 计算冷漠策略

另一个提议是让AGI对特定事件保持冷漠。例如,使AGI对其硬件上附着的炸药爆炸无动于衷,这可能使人类能更好地控制它。

3. 编程限制

Goertzel和Pitt建议确保AGI不会

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值