统计与神经科学中的方法与模型
1. 统计模型的检验与评估
在统计分析中,有一种基于嵌套模型的对数似然值的检验方法。通过计算 -2 倍的一个嵌套在另一个模型中的对数似然值之差,可进行卡方统计检验。例如,计算得到 -2(-42.10) - 2(-38.67) = 6.85,且该值具有统计学显著性(p < 0.05)。
在因果推理和建模方面,有多种方法和理论。Rose 和 van der Laan 提出了一种非倾向得分的因果学习方法,该方法分为两个阶段:
-
第一阶段 - 超级学习器(Super Learner)
:旨在基于大量候选模型构建最佳预测模型。它可以是对各个候选模型进行平均的集成建模过程,也可以在用户提供良好的简约模型作为候选时,直接返回该简约模型。不过,此过程需要用户指定一个定义最佳模型的损失函数,其目标是为因果处理效应评估提供一个控制所有协变量的初始模型。
-
第二阶段 - 目标最大似然估计(Targeted Maximum Likelihood Estimation,TMLE)
:这是一种半参数方法,能在目标效应估计中实现偏差和方差的最优权衡。对于二元结果,TMLE 在逻辑回归步骤中更新原始超级学习器模型,将原始模型视为截距偏移,给定的目标变量作为自变量,从而针对感兴趣的参数返回相对低偏差的估计值。当做出因果假设时,TMLE 测量的相对无偏目标效应可解释为因果因素。
与 TMLE 相比,RELR 的因果推理方法完全避免了构建第一阶段的倾向得分模型。TMLE 更侧重于检验预先存在的因果假设,而 RELR 的因果推理过程既能发现新的假定因果特征,又能检验假设。此外,RELR 在因果效应估计方面与 TMLE 有一些表面相似之处,如都使用偏移估计,但 RELR 用偏移调整协变量权重而非假定因果效应,并且在偏移回归中使用 RELR 而非标准逻辑回归,因此 TMLE 估计的因果效应可能比 RELR 更具偏差。
以下是几种方法的对比表格:
|方法|阶段|特点|目标|
| ---- | ---- | ---- | ---- |
|Rose 和 van der Laan 方法|第一阶段:超级学习器
第二阶段:TMLE|基于大量候选模型,需指定损失函数;半参数方法,更新模型|构建最佳预测模型,控制协变量;实现偏差和方差权衡,估计目标效应|
|RELR| - |避免倾向得分模型,使用偏移调整协变量权重|发现新因果特征,检验因果假设|
2. 倾向得分相关方法
倾向得分在因果推断中是一个重要概念,有多种与之相关的方法和研究:
-
构建对照组
:Rosenbaum 和 Rubin 提出使用包含倾向得分的多元匹配抽样来构建对照组。
-
协变量平衡倾向得分
:Imai 提出了协变量平衡倾向得分的方法。
-
倾向得分方法性能评估
:Austin 研究了不同倾向得分方法在观察性研究中估计比例差异(风险差异或绝对风险降低)的性能。
-
倾向得分方法的讨论
:Pearl、Gelman 等学者对倾向得分方法进行了讨论和争议解决。
此外,还有一些关于倾向得分匹配的研究,如 Fro¨lich 提出了无条件独立假设下的倾向得分匹配方法,并应用于英国的性别工资差距研究。
3. 分类准确性评估指标的问题
在分类准确性评估中,常用的接收者操作特征曲线下面积(ROC AUC)测量方法存在一些问题。该指标随机波动,导致通常难以获得准确的置信区间,并且当不同模型的 ROC 曲线交叉时,其有效性也会受到影响。即使在大样本量的情况下,这些基本问题也可能存在,这种波动可能会显著影响比较结果。
4. 神经科学中的研究与模型
4.1 神经元相关研究
在神经科学领域,有许多关于神经元的研究:
-
条件概率计算
:Hocking 和 Levy 研究了在最小 CA3 锥体神经元中计算条件概率。
-
神经元响应
:Aosaki 等观察到在猴子的行为感觉运动条件反射过程中,基底神经节中的神经元响应与目标舔舐反应相关,且在训练 10 分钟内,约 100 个听觉提示后和较少的目标舔舐反应后就会出现神经反应。
-
单试验学习
:Rutishauser 等的研究表明,在人类的新旧视觉图像识别记忆学习中,内侧颞叶的一些神经元存在单试验学习现象,不过记录的神经元群体平均需要六次试验才能在预测模型中达到 90% 的辨别准确率。
4.2 神经元模型
- Hebb 理论 :Hebb 提出“神经元同步放电则会连接在一起”的观点,但该观点可能过于简单,因为它没有考虑到前馈网络中相邻神经元之间由于抑制性突触连接而产生的负相关放电情况。基于 Hebb 的原始思想,产生了被称为尖峰时间依赖可塑性的研究领域。
- Izhikevich 模型 :Izhikevich 提出了简单的尖峰神经元模型,该模型具有有趣的动态变化,通过改变模型中的参数,可以反映真实的神经动态特性。例如,根据参数设置,信号在树突隔室中可以是被动的(随距离衰减)或主动的(保持强度作为树突尖峰),并传递到轴突丘。
4.3 RELR 在神经科学中的应用特点
在 RELR 中,二元变量被视为区间变量,反映了 0 或 1 发生的概率,独立变量中的缺失值将被均值插补,该均值插补值将是该区间内的一个内点。序数变量也可以作为 RELR 中的自变量或因变量,但在用于误差模型和特征约简中的皮尔逊相关计算时,需确保这些变量表示等级。
RELR 允许选择非常特定的高阶非线性或交互效应,而无需选择低阶效应,不受已故 John Nelder 提出的边际性原则的限制。这是因为所有自变量(包括所有交互和非线性效应)都被标准化为均值为 0、标准差为 1 的 z 分数,并且每个交互都是基于标准化变量计算的,所以变量的初始测量单位(如温度的摄氏度或华氏度)不会影响 RELR 模型。
以下是 RELR 与传统回归方法在变量选择上的对比流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B{是否使用 RELR}:::decision
B -->|是| C(可选择高阶效应而不选低阶效应):::process
B -->|否| D(遵循边际性原则,选交互效应需选主效应):::process
C --> E(变量标准化,不受单位影响):::process
D --> F(变量未标准化,受单位影响):::process
E --> G([结束]):::startend
F --> G
4.4 其他神经网络模型
除了上述模型,还有许多其他神经网络模型:
-
感知机(Perceptron)
:Rosenblatt 提出的感知机可以进行分类,但与现代标准最大似然回归有很大不同。
-
多层感知机(MLP)
:Rumelhart 等通过误差传播学习内部表示,推动了神经网络的发展。
-
Hopfield 网络和 Boltzmann 机
:Hopfield 网络具有涌现的集体计算能力,而 Boltzmann 机在 IBM 的当前神经形态认知架构中有所应用。不过,基于 Hopfield 网络或受限 Boltzmann 机的联想记忆网络目前在工程领域的应用多于商业或医学领域。并且,这些网络目前仅适用于二元特征,在实际应用中需要人为将非二元变量转换为二元特征,尚未实现完全自动化的机器学习。
综上所述,统计和神经科学领域有丰富的方法和模型,每种方法都有其特点和适用场景。在实际应用中,需要根据具体问题和数据特点选择合适的方法和模型。
5. 计算复杂度与模型选择规则
5.1 变量交互效应的计算复杂度
在多元回归模型中,考虑变量的交互效应会显著增加计算复杂度。假设存在 1000 个独立的线性输入,仅有双向交互作用且无非线性效应时,双向交互作用的数量为 (1000² / 2) + 1000 = 500,000 个,总的独立变量数量达到 5,001,000 个。若再考虑二次、三次和四次效应,将双向交互作用数量乘以 4,并加上 4 × 1000 个线性主效应及相关的非线性效应,候选效应数量将达到 2,004,000 个。
5.2 Dahlquist 和 Bjo¨rk 规则
Dahlquist 和 Bjo¨rk 提出了一个规则,在多项式插值方程组中,多项式的次数 n 必须小于 2√m,其中 m 为采样点的数量。在多元回归模型中,n 可视为独立变量效应的总数,m 为训练样本的观测数量。这是因为多项式插值方程组中的变量数量包含了所有的交互项和非线性项。
当线性变量数量较少且无交互或非线性项时(如大数据时代之前由于处理速度限制的传统回归方法),该规则基本等同于传统的“10:1 规则”,即每一个独立变量效应需要 10 个观测值。例如,若有 400 个观测值(m = 400),按此规则可选择 40 个线性主效应变量(n = 40)。
5.3 神经元学习的时间复杂度
假设一个神经元每秒放电 100 次,一小时内会有 360,000 次放电响应。若应用 Dahlquist 和 Bjo¨rk 规则,设 m 为放电响应数量,N 为包括交互效应的总特征数量,当 m = N² / 2 且 N = 501,000 时,m = 125,500,500,000 次放电。以每秒 100 次放电的速度计算,达到这样的放电次数大约需要 125,500,500,000 / 360,000 ≈ 348,612 小时,约 40 年才能实现最低限度的可靠学习。
以下是不同情况下计算复杂度的对比表格:
|情况|线性输入数量|交互效应数量|总独立变量数量|候选效应数量|
| ---- | ---- | ---- | ---- | ---- |
|仅双向交互|1000|500,000|5,001,000| - |
|考虑高次效应|1000|500,000| - |2,004,000|
6. 其他模型的问题与发展
6.1 随机森林方法的问题
随机森林方法近年来暴露出一些问题,如存在有偏的解决方案,仍受到多重共线性和其他变量选择问题的影响。
6.2 L2 范数惩罚逻辑回归的不稳定性
L2 范数惩罚逻辑回归在小样本情况下参数不稳定,Rice 的研究中提到的一个模型就体现了这一问题。
6.3 联想记忆网络的发展与局限
Hopfield 联想记忆模型有了新的发展,可以采用忆阻器实现实时硬件配置。Saffron 技术公司的进展似乎避免了交叉杆忆阻器实现的物理缩放限制。然而,联想记忆网络目前仍存在局限性,仅适用于二元特征,在实际应用中需要人工将非二元变量转换为二元特征,尚未实现完全自动化的机器学习。
以下是不同模型问题与发展的总结列表:
-
随机森林方法
:有偏解决方案,受多重共线性和变量选择问题影响。
-
L2 范数惩罚逻辑回归
:小样本情况下参数不稳定。
-
联想记忆网络
:有硬件实现进展,但仅适用于二元特征,未实现完全自动化。
7. 研究总结与展望
统计和神经科学领域涵盖了丰富多样的方法和模型,每种方法都具有独特的特点和适用场景。在统计分析中,不同的因果推理方法(如 Rose 和 van der Laan 方法、RELR)各有优劣,需要根据研究目的和数据特点进行选择。倾向得分相关方法为因果推断提供了重要工具,但也存在一些争议和需要进一步研究的问题。
在神经科学方面,各种神经元模型(如 Hebb 理论、Izhikevich 模型)从不同角度解释了神经元的工作原理和学习机制。然而,这些模型在计算复杂度、变量选择和实际应用中仍面临挑战。
展望未来,随着数据量的不断增加和计算能力的提升,需要进一步优化现有的方法和模型,以提高其在复杂问题中的应用效果。同时,探索新的理论和方法,解决当前模型存在的问题,如分类准确性评估指标的问题、联想记忆网络的局限性等,将是未来研究的方向。
以下是未来研究方向的 mermaid 流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([开始]):::startend --> B(优化现有方法和模型):::process
A --> C(探索新理论和方法):::process
B --> D(提高复杂问题应用效果):::process
C --> E(解决现有模型问题):::process
D --> F([结束]):::startend
E --> F
总之,统计和神经科学领域的研究不断发展和进步,为我们理解和解决复杂的问题提供了更多的可能性。通过综合运用各种方法和模型,我们有望在未来取得更深入的研究成果。
统计与神经科学模型综述
超级会员免费看

被折叠的 条评论
为什么被折叠?



