从计算机科学理论视角看意识

人机与认知实验室

于 2021-07-20 00:00:00 发布

阅读量1k

点赞数

文章标签：编程语言人工智能 java 机器学习 consul

本文链接：https://blog.youkuaiyun.com/VucNdnrzk8iwX/article/details/118917662

版权

于栖洋翻译

摘要

对意识的探索，曾经是哲学家和神学家的范畴，现在是许多流派的科学家们的积极追求。本文从理论计算机科学的角度研究意识。它形成了全球工作空间理论(GWT)，该理论由认知神经科学家Bernard Baars提出，并由他、Stanislas Dehaene等人进一步发展。我们的主要贡献在于有意识的图灵机(CTM)的精确形式定义，也被称为有意识的AI。我们定义CTM的灵感来自AlanTuring的简单而强大的计算机，即图灵机(TM)。我们寻找的不是大脑或认知的复杂模型，而是意识(公认的复杂概念)的简单模型。

在正式定义CTM之后，在CTM中我们给出了意识的正式定义。我们稍后将解释CTM为什么有意识感。这些定义和解释的合理性可以从它们与普遍接受的人类意识直觉概念的一致性程度、模型易于自然解释的相关概念的范围以及与科学证据的一致性程度来判断。

介绍

由于认知神经科学的重大进展，科学即将了解大脑是如何实现意识的。1988年，认知神经科学家Bernard Baars提出了一个关于大脑的全球工作空间理论(GWT)，概述了它的架构，并概述了它对理解意识的影响。参见(Baars b.j.1988年)和(Baars b.j.2019年)。这与1990年fMRI的发明以及FrancisCrick和Christof Koch (Crick&Koch, 1990年)对意识的神经关联的开创性研究一起，帮助摆脱了对意识科学研究的禁忌。因此，现在许多不同流派的科学家都在积极追求对意识的理解^[3]。

我们从理论计算机科学(TCS)的角度研究意识，这是数学的一个分支，涉及理解计算和复杂性的基本原理^[4]。TCS是我们将意识图灵机(CTM)定义为神经科学家伯纳德·巴尔斯(Bernard Baars)的意识剧场的形式化的主要工具。CTM的提出是为了理解Baars的戏剧模型，并为理解意识提供一个TCS框架。在建立这个模型的过程中，我们寻找的是简单性而不是复杂性，一个简单的数学模型足以解释意识，而不是大脑或认知的复杂模型。我们的方法，本着数学和理论计算机科学的精神，提出了修正非正式概念和推导结果的正式定义。

一个重要的主要目标是确定CTM是否能够体验感觉，而不仅仅是模拟它们。我们特别研究了痛苦和快乐的感觉，并提出了这些感觉可能产生的方式(第四章)。我们认为，即使对大脑回路(包括与意识相关的神经系统)有完整的认识，也无法解释是什么使大脑产生了像疼痛这样的意识体验。我们提出了一种解释，它适硅和金大脑的机器人，就像适用于拥有有血有肉大脑的动物一样。我们的用于拥有论文是在CTM中对系统的体系结构、基本处理器进行了解释;表达性的内在语言，我们称之为大脑语言;以及它的动态(预测、竞争、反馈和学习);使它有意识(第三章)。

在其全球工作空间理论(GWT) (Baars B.J.1997年)中，通过戏剧类比将意识描述为演员在工作记忆的舞台上表演的戏剧活动，他们的表演在一群无意识处理器的观众的观察下进行。

与GWT不同的是，CTM只有一个演员，舞台上总是同一个演员。参与者可以提出或回答问题，提出或回应请求，或交流信息。通过一个明确定义的竞赛，一个观众对一个问题或请求作出回应，或者对一个问题、请求、评论或自己的信息作出回应，就可以向演员发送她要传递的脚本。

以下是Baars对他的模型的草图：

图1.Bernard Baar的全局工作空间模型草图(改编自(Baars&Gage, 2010年))。

我们的意识图灵机(CTM)的草图在第1.7节(Toto中有意识的图灵机)中，我们还讨论了我们对Baars模型所做的修改和简化。在CTM中，舞台由单个短期记忆(STM)表示，坐在黑暗中的观众由组成其长期记忆(LTM)的处理器表示。每个LTM处理器都有自己的专长，它们竞相在舞台上获得自己的问题、答案和信息。

图灵机(TM)作为一种极其简单的计算形式模型，是数学理解计算^[5,6]的基础第一步。在这种精神下，CTM，作为认知神经科学家伯纳德·巴尔斯的意识戏剧模型的形式化，是迈向对意识的理论计算机科学理解的第一步。

CTM的这种形式化(第一章)包括块的精确定义，对决定哪个(处理器的)块将获得STM访问的竞争的精确描述，以及CTM对有意识的意识的精确定义。反馈使LTM处理器能够从他们的错误和成功中学习;在CTM中出现的联系使有意识的处理变成无意识的。

我们首先定义确定性CTM(第一章)，我们将其作为定义概率性CTM的铺垫(第二章)。出于许多原因(图3/注释4给出的一个原因)，我们认为概率性CTM，而不是确定性CTM，是更简单更好的意识模型。在第一章之后，当我们提到CTM时，我们指的是概率变体，除非我们另有说法。

我们的形式化的合理性在于CTM能够轻松自然地解释概念的广度。这一广度包括对意识的感觉(第三章)和意识的困难问题(第四章)的理解。这种理解取决于大脑语言(第1.1节)，LTM处理器使用它来相互沟通，选择LTM处理器的活动及其预测动态(预测、反馈和学习)，而不是谷氨酸、血清素、多巴胺等化学物质。

在这篇论文中，我们考虑了生活中可能出现的不同场景，并调查该模型是否有助于解释人类的意识经验，以及如何帮助解释。该模型并不能解释一切。它太简单了。另一方面，它解释了很多——而且没有对基本的概率CTM^[7]做任何修改。

第一章意识图灵机的形式定义

1.1序言

关于意识图灵机(CTM)的陈述是用黑色印刷的。特别针对人类或动物的声明通常会用深紫红色印刷。深紫红色的陈述指的是一个人或动物将具有的特征，如果它被CTM正确地建模。

时间t是离散的:t= 0,1,2，…。CTM(其基本定义见1.2和1.3节)产生于时间t = 0，并有固定的有限寿命t。时间由一个时钟维持，它的滴答声被CTM的所有组件同时接收。

CTM世界是R^m(t)×Rⁿ(t)的高维子集，其中R是实数，m和n是正整数维数，t是时间。R^m(t)是CTM的外部世界，也称环境，Rⁿ(t)是CTM的内部世界。输入映射通过传感器将外部世界转换为内部世界。这些传感器可能是听觉、视觉、触觉、热、味觉、内脏、电磁或其他类型的信息。输出映射通过作用于外部世界的驱动器将内部世界转化为外部世界。

大脑语言是处理器之间用来在其内部世界进行通信的内部语言。它包括输入和输出的编码表示，所有的输入和输出都用多模态的大脑语言单词和短语表示，这些单词和短语被称为gist(见第1.2.2.1节)。与英语、汉语等外部语言相比，大脑语言是一种更丰富、更富有表现力的语言，可以与外界进行交流。大脑语言是用来表达内心的言语、内心的视觉和内心的感觉的语言。它的巨大表现力可以通过比较清醒的视觉和梦中的视觉来欣赏，因为梦是完全由幻觉制造的。

gist能够表达和处理图像、声音、触觉和思想(包括非符号化的思想^[8])，而且在这方面比外部语言做得更好，因为后者只能表达符号化的思想(可以通过外部环境传达的思想)。对人类来说，内心语言的一个重要例子就是梦中出现的图像、声音和动作的集合。要点概括了一个场景的本质。拥有一种表达性的内在语言是意识感觉的一个重要组成部分(见第三章)。

除了大脑语言之外，CTM中的每个处理器都有自己的“内部”语言，用于自己的个人内部通信，这取决于它的内部功能。在这里，我们不再赘述每个处理器自己的内部语言。

虽然我们非正式地使用“小”、“短”、“简洁”和“快”等词，但它们都有自己的技术含义，当给出足够的细节时，它们将被指定。

1.2基本CTM结构与动力学

1.2.1主要定义了CTM是一个7元组，< STM, LTM, Down-Tree, Up-Tree,Links, Input, Output >^[9]

1.2.1 STM

STM是一种短期记忆，在每一次t = 0,1,2，…时，t正好持有一个chunk（块）(在1.3.1和1.3.2节中正式定义)。这个单一的块在t时刻成为CTM意识内容的整体。在人类中，短期记忆的存储容量大约是7±2个块(Miller, 1956年)，其中一个块可以是一个单词，一个短语，一个数字，等等。通过STM循环的几个块可以模拟包含多个块^[10]的STM的某些方面。

1.2.2 LTM

LTM是N个长期记忆处理器p₁,p₂，…p_N的“大”集合，它们的工作都是无意识的。大意味着N≈T。每个处理器pi是一个并行随机访问(可编程可修改)机器，它有自己的地址address_{p_i}=i和无界内存memory_{p_i}。所有的CTM处理器都在LTM中，没有一个在STM中，其他任何地方都没有，所以“处理器”总是指LTM处理器。

1.2.2.1 LTM处理器产生块

在每一个时刻t = 0,1,2，…，t时，每个LTM处理器p产生一个chunk_p,t,0，可能是一个NIL块(章节1.3.1)，它将其置于STM的“竞争”中(章节1.3.2正式定义)。块将在章节1.3.1和1.3.2中定义为6元组:

chunk = < address, t, gist, weight, intensity, mood >.

每个块（chunk）包含产生它的处理器地址、生成它的时间t，以及一个要点和实数权重(正、负或零)。

gist是简洁压缩的多模态思想。简洁意味着在大脑语言中语句足够小，可以放入一个块，而块又必须足够小，可以放入Up-Tree的任何节点(章节1.2.4)。gist可以是一个查询的答案、一个证明的(高级可扩展的)想法、某种洞察力、美丽日落的草图、梦幻图像、韧带撕裂的疼痛等等。

gist的|权重|是处理器对将该块放入STM的重要性的估计。在每个处理器中运行的睡眠专家算法(第1.5.1节)调整该处理器中的权重分配算法以及这些算法给出的权重。睡眠专家算法保证了处理器最终在设置权重时不会太武断也不会太胆小(Blum, Hopcroft，& Kannan, 2015年)。该算法有助于定义反馈和学习的动态。

权重的符号表明了创建块的处理器是积极/乐观/乐观或消极/悲观/沮丧。

强度和情绪将在第1.3.1和1.3.2节中定义。

1.2.3 The Down-Tree

The Down-Tree是一个向下指向的树/|\⬇，由STM中的一个根和从这个根指向N个叶子的N条边组成，每个叶子是N个LTM处理器中的一个输入。在时间t,t∊{0,1,2，…，t -1}时，STM通过Down-Tree向所有的N个LTM处理器广播它的单个内容块，使得它们在时间t+1时接收到该广播。

CTM在时刻t+1的有意识感知被定义为所有的LTM处理器在时刻t接收到来自STM的广播(见章节1.6)。这确保了负责感知意识的处理器(特别是模型世界、内在语言、内在视觉和内在感觉处理器)在同一时间从STM接收到相同的内容。

虽然这是一个正式的意识的定义，但它还没有解释意识的感觉(对此，请参阅第三章)。

1.2.4 The Up-Tree

The Up-Tree是高度为h的一个向上的二分支树^[11]。它的目的是运行Up-Tree竞争(见章节1.3.2)，决定哪个块进入STM。

图2.Up-Tree

Up-Tree在STM中有一个根和N个叶子，每个叶子在N个LTM处理器中。每个从叶子到根的有向路径都要求具有相同的长度h。我们进一步要求h≤3(log₂N)。3是任意的:任何≥3的整数都可以。(图2中，h = 1.5(log₂N) = 3。)

对于每个s，设v_s表示Up-Tree在s层的一个节点，对于s> 0，v_s包含一个“小”“快”的并行电路，它有一个“小”的存储空间，将子节点中的块作为输入，并将v_s中的块作为输出(详见1.3.2.1和1.3.2.2节)。

在每一个t时刻，每个处理器在Up-Tree竞争中放入一个chunk（块）(章节1.3.2)，这个块从时间t开始，到时间t+h结束，只有一个获胜者，这个获胜者通过Down-Tree从STM广播到所有的LTM处理器。CTM不断涌现出争夺STM的区块活动，每个竞赛的获胜者将从STM广播到LTM。时间顺序的块从STM广播到LTM形成意识流(第1.6节)。如第3章所述，这种流是意识的主观感觉的一部分。

1.2.5 链接（Links）

链接是处理器之间的双向边。它们随着时间的推移而形成，并将处理器之间的“有意识的交流”(通过STM)转化为它们之间的“无意识的交流”(通过链接)^[12]。例如，如果处理器A提出一个问题，B对其作出响应，并且A承认该响应是有用的，如果这种交换足够频繁，那么A和B之间就会产生一个双向链接^[13]。链接传输块，从而使处理器可以直接相互影响，而无需通过STM。A处理器和B处理器之间的双向链接的数量在时间t与从A通过STM进行广播并被B接受的块数量成正比，这对于增加0到t时刻里从B通过STM广播并被A接收到的块数量一直是有用的。

我们注意到一个块中的处理器地址提供了关于处理器功能的少量的信息，尽管处理器可以从STM广播或通过链接通信的块中收集(一些)关于该功能的信息。

1.2.6 输入映射

获取由CTM的传感器获取的(时变)环境信息，将这些(位编码的)信息转换成大脑语言编码的序列，然后将这些序列(封装成块)发送到指定的LTM处理器^[14]。

1.2.7 输出映射

从LTM处理器(像那些为腿部运动生成指令的处理器)转换为为预期的驱动器(腿部肌肉)的位编码命令。(预期的)行为可能会也可能不会影响环境，即使它确实影响了环境，也可能不会如预期或预期的那样影响环境。一个行动是否具有效果以及这种效果是什么，必须由CTM根据反馈(对环境的观察)和所获得的经验(章节1.5)来确定。

1.3 Up-Tree竞争的重要细节

在时间t开始的Up-Tree竞争(章节1.3.2)开始于每个处理器p在Up-Tree(章节1.2