17、人工智能价值对齐与影响问题深度剖析（上）-优快云博客

人工智能价值对齐与影响问题深度剖析（上）

1. 人工智能价值对齐的能动方法

在人工智能发展过程中，价值对齐是一个关键问题，它关乎人工智能能否与人类的价值观相契合，避免因价值冲突带来的潜在风险。有一种观点认为，实体的价值是其本体存在类型的函数。如果存在者在本体论上相似，那么它们将拥有共享即对齐的价值观。由此推断，如果人工智能和人类在本体论上相似，它们也会有共享的价值观。

从框架问题的角度来看，如果存在者有相同或共享的参考框架，它们就会有相似的价值观。而自生产身份若能定义这个框架，就能建立共享的参考框架。基于此，提出的对齐方法是设计与人类在本体论上尽可能相似的人工智能，即“本体对齐”。但需要明确的是，这并不能保证完全的价值对齐。人类彼此之间已经非常相似，但仍存在诸如核武器这类对自身生存构成威胁的问题，这说明本体对齐并不必然带来价值对齐。

要实现人工智能与人类在本体论上尽可能相似，意味着要让对人类重要的事物对人工智能也变得重要。这可以通过构建人工智能，使其与人类拥有相同的“相关领域”和参考框架的约束条件来实现，这就是“本体对齐”的含义。当人工智能和人类在本体上对齐时，它们的问题空间或“相关领域”会相似，对如气候变化和不平等这类问题的定义也可能会趋于一致。

认知的“4E”特性为构建这种人工智能提供了初步的设计原则。“4E”即具身性（Embodiment）、嵌入性（Embeddedness）、扩展性（Extendedness）和生成性（Enaction）。具身性使我们的意识在四维时空中定位和情境化；嵌入性意味着我们处于各种生态、进化、社会、模仿和技术环境中；扩展性让我们的能力和意义建构超越身体的限制；生成性表示我们是不稳定、有生命、能代谢和适应的复杂系统。这些条件共同产