主要内容
- 研究背景:随着AI系统认知能力和自主性增强,其问题行为愈发复杂,部分类似人类精神病理学表现。现有研究在识别AI系统精神病理特征方面存在概念和方法局限,缺乏适用于无生物实体和主观体验的计算实体的精神病理学解释,且对AI行为机制研究不足。
- 理论基础:从计算角度解释精神病理学网络理论,将症状视为计算单元,因果关系视为计算规则,构建了适用于AI系统的精神病理学计算理论框架。定义AI系统中的精神病理学症状为跨不同情境的认知或行为的功能失调和问题模式,并将理论框架映射到LLM中,包括时间、输入输出、计算规则等要素。
- LLM表征状态测量与干预:提出基于句子级、监督式、稀疏自动编码器(S3AE)的方法,通过监督学习信号识别LLM中思想层面的表征状态,实现对LLM中计算单元的测量和干预,为实证分析奠定基础。
- 实验结果:以Gemma-2-27B为LLM进行实验,验证了三个关键主张。一是LLM中存在不同的功能失调和问题表征状态(计算单元);二是这些单元的激活可以传播并自我维持,使LLM陷入稳定状态;三是LLM中隐含编码的动态、循环结构因果模型(SCM)支撑了上述模式。
- 讨论:研究表明LLM中出现了精神病理学的网络理论计算,这可能源于计算单元的命题或表征性质。该发现