统计学与回归分析相关知识解析
1. 基础理论概述
在统计学与相关领域的研究中,众多理论和模型发挥着重要作用。
-
熵相关理论
:
- 玻尔兹曼认为系统自然向高熵演化需遍历假设,且大多时间接近最大熵值。在热力学里,遍历性指系统时间平均和空间平均行为相同,长时间内粒子处于各位置和动量状态概率相等。
- 香农和韦弗提出的通信数学理论中,香农表达式与玻尔兹曼熵符号相反,因其使用概率使对数符号反转。当所有概率相等时,香农表达式可简化为玻尔兹曼熵形式,且香农表达式更具一般性,无需特定统计力学实现的缩放常数。
- 杰恩斯提出最大熵原理,但该原理存在争议。豪森和乌尔巴赫批判杰恩斯仅基于历史数据和已知约束最大化熵获取客观先验概率的观点,他们是主观贝叶斯主义者,将概率视为信念程度的度量。
-
其他理论
:
- 霍奇金和赫胥黎模型用方程描述带电分子跨细胞膜分布的浓度梯度与静电势梯度的关系,可理解为在约束条件下最大化熵的机制,这对理解细胞膜电位和离子运动至关重要。
- 戈兰、贾奇和佩罗夫提出用最大熵方法从多项响应数据中恢复信息。
2. 回归分析模型
回归分析在统计学中是重要的工具,有多种模型和方法。
|模型名称|特点|
| ---- | ---- |
|线性概率、Logit和Probit模型|由奥尔德里奇和纳尔逊提出,用于处理相关问题|
|条件Logit分析|麦克法登用于定性选择行为分析|
|离散选择方法|特雷恩提出并进行模拟,有第二版相关著作|
|应用Logistic回归|霍斯默和莱梅肖进行了相关研究和应用|
3. RELR模型介绍
RELR模型在回归分析中有其独特之处。
-
适用范围
:仅适用于二元和有序回归,多类别定性模型可用标准多项Logistic回归,也可拆分为多个二元RELR模型。
-
误差建模
:与以往工作不同,RELR假设误差的对数赔率与t近似成反比,t可针对每个自变量特征定义。
-
样本平衡
:当仅需预测时,隐式RELR平衡样本优势不大,但可减少总观测数;显式RELR计算解释时,强烈推荐平衡样本,无缺失数据时,解不依赖t值方差估计的计算方式。
4. 特征选择方法
特征选择在回归分析中是关键步骤,有不同的方法和策略。
graph LR
A[特征选择] --> B[向后选择]
A --> C[向前选择]
B --> D[基于t值删除特征]
C --> E[基于t值添加特征]
D --> F[控制奇偶多项式特征偏差]
E --> F
F --> G[预测目标]
- 向后与向前选择 :当前软件多采用向后选择,但也可实现向前选择。二者目标都是预测,可能给出相同选择和预测结果。在实际数据中不同时,向后选择能更长时间保留线性特征,因二元和类别变量通常无线性特征,且非线性特征可能是虚假或假正相关效应。
- 特殊情况处理 :若出现多个解平局,选择特征最少的解。隐式RELR未采用允许每两步删除奇次或偶次多项式特征的方法,因改进不显著且会增加处理量。
5. 贝叶斯推断及相关概念
贝叶斯推断在统计学中占据重要地位,其发展历程及相关概念值得深入探讨。
-
贝叶斯推断的起源
:菲恩伯格研究了贝叶斯推断何时成为“贝叶斯”的问题。
-
相关概念
-
KL散度
:它并非度量,不具备三角属性。江口和科普斯对其进行了解释,而江口和加野则研究了对最大似然估计的稳健化。
-
生存分析与多水平模型
:赫德克将多水平建模引入生存分析方法,但RELR不需要多水平参数,所以赫德克方法中与多水平参数相关的部分不适用于RELR。
6. 模型性能与特征选择问题
在回归分析中,模型性能和特征选择是需要重点关注的问题。
-
模型性能问题
-
样本大小与特征数量
:RELR在高维数据中,若样本未完美平衡且无截距,会出现几乎完全分离的问题。最大熵和最大对数似然在已知约束条件下返回相同的最大概率解,但在未知约束时含义不同。标准Logistic回归中,最大熵解是无约束的平凡解,而最大对数似然解通常包含所有特征,易导致过拟合和预测泛化能力差。
-
特征选择的重要性
:在标准Logistic回归中,对数似然值不是选择能良好泛化到新数据样本的最优特征选择集的好指标。
-
特征选择方法的比较
-
Seni和Elder的研究
:当前软件实现的向后选择过程也可等效为向前选择过程。向后选择能更长时间保留线性特征,在实际数据中通常更具优势,因为非线性特征可能存在虚假或假正相关效应。
-
其他特征选择相关研究
:豪里、热斯特罗和韦尔研究了特征选择方法对分子特征准确性、稳定性和可解释性的影响。汉德提出了测量分类器性能的新方法。
7. 统计检验与参数估计
统计检验和参数估计是评估模型和参数可靠性的重要手段。
-
似然比检验
:霍斯默和莱梅肖详细讨论了Wald、似然比检验和得分检验等。似然比用于计算(\chi^{2}),以估计移除一个参数的效果,简化模型需完全嵌套在完整模型中,(-2LL)(简化模型与完整模型对数似然差的两倍)服从自由度为1的(\chi^{2})分布。
-
t值的稳定性
:测量相关效应可靠性的t值,接近零的值在独立样本间的幅度变化较小。费舍尔提出的z’检验可校正皮尔逊相关系数在其范围内的差异变异性。
8. RELR模型的应用与特点
RELR模型在实际应用中有其独特的应用方式和特点。
-
特征选择与因果关系
:显式RELR在简约性为强目标的条件下进行特征选择,但不一定能选择出因果特征。它可能会错过单变量效应非常小的因果特征,但在模拟中,即使线性和立方特征具有相同大小但相反的相关性,RELR中的t值仍然显著。
-
模型稳定性
:从回归系数和标准误差可以看出,特征数量较少时,标准误差较大,稳定性较低。
-
计算与应用细节
-
(\chi^{2})值计算
:商业软件实现的RELR使用Wald近似计算(\chi^{2})值。
-
变量标准化
:RELR中,交互和非线性效应在标准化变量之间计算,然后对交互或非线性特征本身进行标准化,可消除回归建模中引入交互和非线性效应时的边缘性问题。
-
截距调整
:在完美平衡分层样本的情况下,可根据特定公式调整截距。
-
分类变量处理
:RELR对于具有K个水平的分类变量总是使用K个虚拟变量,且可形成与每个特定分类水平特征的交互效应。
-
特殊情况处理
:在非纵向数据中,RELR使用类似的虚拟编码分类特征控制相关性。若选择特定学校等特征,该特征不能推广到其他学校,但可控制样本中的相关性。
总之,统计学与回归分析领域包含众多理论、模型和方法,每个方面都有其独特的特点和应用场景。在实际应用中,需要根据具体问题选择合适的方法和模型,并注意各种方法的局限性和适用条件,以获得准确可靠的结果。
超级会员免费看

被折叠的 条评论
为什么被折叠?



