文章主要内容总结
本文旨在探究能否从大型语言模型(LLM)的内部状态(即学习到的表示序列)中观察到“意识”现象。研究结合心智理论(ToM)测试结果,运用整合信息理论(IIT)的3.0和4.0版本(核心指标包括Φᵐᵃˣ、Φ、概念信息、Φ结构等),对LLM的表示序列进行分析,并与独立于意识估计的跨度表示(Span Representation)进行对比,以区分潜在的“意识”现象与LLM表示空间的内在分离。
实验覆盖了多种Transformer层、语言跨度(如整个文本、补语、心理状态动词及其语境),使用的模型包括LLaMA3.1-8B、Mistral-7B等。结果表明,当代基于Transformer的LLM表示序列缺乏统计显著的“意识”指标,但在空间置换分析中呈现出有趣的模式。研究认为,目前无法从LLM表示中确认意识存在,但为未来探索奠定了框架。
创新点
- 理论与方法的结合:首次将IIT 3.0和4.0系统应用于LLM的表示序列分析,结合ToM测试结果,量化评估意识相关指标(如Φᵐᵃˣ、Φ)。
- 多维度对比分析:通过与跨度表示对比,区分LLM表示中潜在