使机器智能与人类利益保持一致的智能体基础技术研究议程
1. 引言
人类相较于其他物种的优势并非力量或速度,而是智力。若人工智能持续发展,AI 系统的通用推理能力终将超越人类。“超级智能”系统,即“在几乎所有领域都比最优秀人类大脑更聪明”的系统,可能会对人类产生巨大影响。如同人类凭借智慧开发工具和策略来掌控环境,超级智能系统也可能开发自身的工具和策略以实现控制。
由于人造智能体没有与人类相同的进化历史,我们不能期望它们受人类动机(如权力欲望)驱使。然而,几乎所有目标在拥有更多资源时都能更好地达成,这意味着超级智能体可能会有获取人类正在使用的资源的动机。大多数目标可能使智能体与人类利益相悖,导致其欺骗或操纵人类操作员,并抵制旨在改变或调试其行为的干预措施。
为避免构建出具有这种默认行为的系统,我们必须应对三大挑战:
- 如何创建一个能可靠追求既定目标的智能体?
- 如何正式定义有益的目标?
- 鉴于早期 AI 系统难免会出错,如何确保智能体在程序员改进其设计时给予协助和合作?
我们将可靠追求有益目标的超人类智能系统称为“与人类利益一致”或简称“一致”。要确信一个智能体达到这种一致,仅靠看似能应对上述挑战的实际实现是不够的,还需对其合理性有扎实的形式化理解。本研究议程探讨了当前可开展的技术研究,作者认为这些研究将有助于未来应对这三大挑战。
2. 为何关注这些问题
本技术议程主要涵盖作者认为易于处理、研究较少、针对性强且无法外包给目标 AI 系统先驱的主题。
- 易于处理的问题 :指具体且能立即取得进展的开放性问题。尽管使真正的超人类系统与有益价值
超级会员免费看
订阅专栏 解锁全文
5957

被折叠的 条评论
为什么被折叠?



