RELR方法:特征定义、约束条件与解决方案
1. 基本假设与相关概念
当假设序数数值以排名形式表示时,适用于排名的Spearman相关性和Pearson相关性会给出等效结果。U是一个正值比例因子,它是所有M个特征的t值分母绝对值之和。由于每个特征有两个绝对值相同但符号相反的t值,所以这个和要乘以2。
2. 截距约束
截距约束在某些情况下会被考虑,但在许多RELR应用中,特别是在目标和非目标条件完全平衡的显式RELR二元模型中,截距会从模型中剔除。这是因为RELR不会尝试减少截距权重的误差,与自变量特征不同,截距特征没有对应的误差概率项。
3. 特征定义
- 线性和非线性特征 :当包含非线性特征时,式(A1.2)中的前M/2个数据特征(r从1到M/2)反映线性或立方分量,这些分量在完整模型中预计具有最大的对数系数。后M/2个数据特征(r从M/2 + 1到M)反映二次或四次分量,同样预计具有较大的对数系数。若只需要线性分量,则排除所有非线性变量。
- 名义输入变量 :名义输入变量会为每个类别条件重新编码为二元变量。与标准逻辑回归不同,标准逻辑回归的二元类别数量总是比总类别数少一个。在只有两个类别的情况下,两个二元虚拟编码特征完全冗余,因此会剔除一个。在许多应用中,与先前已纳入特征完全相关的自变量特征可能不被允许作为输入,但在特殊情况下(如不主要考虑降维和变量选择时),这种完全相关性可能被允许。
4. 线性约束
- 标准化处理 :线性约束由原始输入变量形成,这些约束会被标准化,使得每个向量xr在所有C个选择条件和N个观测值(提供了合适的非缺失数据)上的均值为0,标准差为1。
- 缺失数据处理 :当存在缺失数据时,在标准化后会将所有缺失数据设为0,这种插补方式不会引入新信息,是最温和的插补形式,与多重插补不同,多重插补在假设不满足时可能会引入虚假新信息,因此不建议在RELR之前作为初步步骤。
- 交互变量 :交互输入变量通过将这些标准化变量相乘得到,得到的交互变量对应的向量xr也会以同样的方式进行标准化和插补。
- 缺失状态编码变量 :为了对与目标变量相关的输入变量中观测值的缺失与非缺失模式进行建模,会形成新的输入变量,这些变量进行虚拟编码以反映每个先前定义的线性分量的观测值是否缺失。这些缺失状态编码变量也会被标准化为均值为0,标准差为1。
以下是线性约束处理流程的mermaid流程图:
graph LR
A[原始输入变量] --> B[标准化处理]
B --> C{是否有缺失数据}
C -- 是 --> D[将缺失数据设为0]
C -- 否 --> E[无额外处理]
D --> F[形成交互变量]
E --> F
F --> G[标准化交互变量向量]
G --> H[形成缺失状态编码变量]
H --> I[标准化缺失状态编码变量]
5. 二次、三次和四次约束
这些约束通过将附录A1.1.1中描述的每个标准化向量xr的元素取2、3和4次幂(缺失编码变量除外)形成。这些非线性特征会重新标准化。如果形成线性变量的原始输入变量是二元变量,则非线性分量与线性分量不独立,会被剔除。
6. 交叉乘积和的对称误差概率约束
在最大熵公式中,施加了两组额外的线性约束:
[
\sum_{j = 1}^{2}\sum_{r = 1}^{M}s_{r}w_{j1r} - \sum_{r = 1}^{M}s_{r}w_{j2r} = 0 \quad (A1.6)
]
[
\sum_{j = 1}^{2}\sum_{r = 1}^{M}w_{j1r} - \sum_{r = 1}^{M}w_{j2r} = 0 \quad (A1.7)
]
其中,对于线性和立方组数据约束,$s_{r}=1$;对于二次和四次组数据约束,$s_{r}=-1$。式(A1.6)使得线性和立方分量的误差概率之和等于二次和四次分量的误差概率之和,相当于假设线性和立方分量与二次和四次分量在正负误差可能性上没有内在偏差。式(A1.7)使得所有M个特征的正误差概率之和等于负误差概率之和。
在原始的RELR出版物中,式(A1.1)右侧的误差模型及所有类似方程(如式(A1.6)和(A1.7))对所有C个类别结果进行外部求和。当前的公式在二元结果情况下给出相同的解,但在序数多项结果情况下有所不同。新公式在定义序数因变量的参考条件时,无论如何定义都能给出相同的解,其中排名用于计算t值。
7. 解的形式
通过标准的约束优化方法(如建立拉格朗日乘数系统,然后通过梯度上升法求解最优解)找到满足约束条件的最大熵解。解中感兴趣的概率分量形式如下:
- 对于$i = 1$到$N$,$j = 1$到$C - 1$:
[
p_{ij} = \frac{\exp\left(a_{j} + \sum_{r = 1}^{M}(C - j)b_{r}x_{ir}\right)}{1 + \sum_{k = 1}^{C - 1}\exp\left(a_{k} + \sum_{r = 1}^{M}(C - k)b_{r}x_{ir}\right)} \quad (A1.8)
]
- 对于$r = 1$到$M$,$j = 1$:
[
w_{j1r} = \frac{\exp(b_{r}u_{r} + l + s_{r}s)}{1 + \exp(b_{r}u_{r} + l + s_{r}s)} \quad (A1.9)
]
[
w_{j2r} = \frac{\exp(-b_{r}u_{r} - l - s_{r}s)}{1 + \exp(-b_{r}u_{r} - l - s_{r}s)} \quad (A1.10)
]
- 对于$i = 1$到$N$,$j = C$(参考条件):
[
p_{ij} = \frac{1}{1 + \sum_{k = 1}^{C - 1}\exp\left(a_{k} + \sum_{r = 1}^{M}(C - k)b_{r}x_{ir}\right)} \quad (A1.11)
]
- 对于$r = 1$到$M$,$j = 2$:
[
w_{j1r} = \frac{1}{1 + \exp(b_{r}u_{r} + l + s_{r}s)} \quad (A1.12)
]
[
w_{j2r} = \frac{1}{1 + \exp(-b_{r}u_{r} - l - s_{r}s)} \quad (A1.13)
]
在隐式RELR的偏移回归中,式(A1.8)和(A1.11)的指数参数可以修改为反映附加项$O_{ij}$和$O_{ik}$,以捕捉偏移权重乘以特征$x(i,r)$的效果:
- 对于$i = 1$到$N$,$j = 1$到$C - 1$:
[
p_{ij} = \frac{\exp\left(O_{ij} + a_{j} + \sum_{r = 1}^{M}(C - j)b_{r}x_{ir}\right)}{1 + \sum_{k = 1}^{C - 1}\exp\left(O_{ik} + a_{j} + \sum_{r = 1}^{M}(C - k)b_{r}x_{ir}\right)} \quad (A1.8a)
]
- 对于$i = 1$到$N$,$j = C$:
[
p_{ij} = \frac{1}{1 + \sum_{k = 1}^{C - 1}\exp\left(O_{ik} + a_{j} + \sum_{r = 1}^{M}(C - k)b_{r}x_{ir}\right)} \quad (A1.11a)
]
其中$O_{ih} = (C - h)b_{o}(r)x(i, r)$,$h = j = 1$到$C - 1$或$h = k = 1$到$C - 1$ (A1.11b)。
在RELR的结果概率匹配样本中使用的隐式RELR偏移回归的特殊情况下,通常只有一个特征用作偏移,因此式(A1.11b)中的$b_{o}(r)$仅对于这个偏移特征非零,对于所有其他特征为零,并且通常截距也为零。在RELR的结果得分匹配中使用的隐式RELR偏移回归情况下,式(A1.8a)和(A1.11a)中偏移特征的回归系数$b(r)$为零,而是使用由式(A1.11b)定义的回归效果。
以下是解的形式相关参数的表格:
|参数|含义|适用范围|
| ---- | ---- | ---- |
|$p_{ij}$|概率分量|不同的$i$、$j$取值范围对应不同情况|
|$w_{j1r}$、$w_{j2r}$|误差相关概率分量|不同的$j$、$r$取值范围对应不同情况|
|$O_{ij}$、$O_{ik}$|偏移附加项|隐式RELR偏移回归情况|
|$b_{o}(r)$|偏移特征的特殊回归系数|隐式RELR偏移回归特殊情况|
8. RELR与特征降维
在处理高维数据时,特征降维的目的是将问题的维度降低到可管理的自变量特征数量。基本思路是捕捉在完整模型中具有最大对数系数绝对值的特征子集,排除那些对数系数绝对值较小的特征。这样可以用比全部特征集小得多的特征集构建模型,并且在特征选择后,模型仍能包含最终解中权重最大的特征,就好像最初使用所有特征构建了一个特征选择模型一样。
通过一系列推导,我们得到以下关系:
当每个$\varepsilon_{r}$可以假设为接近零的值时,有:
[
\frac{t_{r}(-l - s_{r}s)}{U} \approx b_{r} \quad (A1.17)
]
这表明,当$\varepsilon_{r}$接近零时,每个对数系数$b_{r}$的值将大致与$t_{r}$成比例,但线性和立方特征与二次和四次特征的比例不同。因此,我们可以根据$t_{r}$的绝对值来选择具有最大预期对数系数绝对值的线性和/或立方特征,以及二次和/或四次特征。
以下是特征降维的步骤列表:
1. 计算每个特征的$t_{r}$值。
2. 确定$\varepsilon_{r}$是否可以近似为零(通常根据数据情况判断)。
3. 如果$\varepsilon_{r}$接近零,根据$t_{r}$的绝对值选择特征。
4. 丢弃那些$t_{r}$绝对值较小的特征,完成特征降维。
当$U$相对于$t_{r}$的绝对值较大时,式(A1.17)是一个很好的近似。但对于具有较少显著大$t$值特征的数据,这种关系可能是一个较差的近似。不过,在这种数据中,与目标变量有最强关系的特征(即具有显著大$t$值的少数特征)不受影响。
RELR与朴素贝叶斯不同,朴素贝叶斯在标准化变量且无缺失数据的情况下,严格要求$t_{r}$和$b_{r}$的度量之间具有精确的比例关系,并且不允许交互作用。而RELR适用于高维数据和交互作用,其$t$值筛选可以轻松并行处理。
以下是RELR与朴素贝叶斯对比的表格:
|对比项|RELR|朴素贝叶斯|
| ---- | ---- | ---- |
|$t_{r}$与$b_{r}$关系|不要求严格比例关系|严格要求精确比例关系|
|处理交互作用|适用于高维数据和交互作用|不允许交互作用|
|处理方式|$t$值筛选可并行处理| - |
9. 从变量误差考虑推导RELR对数
在RELR方法中,直接估计捕获误差影响的参数。RELR对数可以从变量误差考虑中得出,这是基于结果和误差事件的独立性假设。
给定附录A1中定义的结果概率和误差概率,第$i$次观测和$j = 1$类别下的二元结果事件与所有$r = 1$到$M$特征上$l = 1$到2的正负变量误差条件下的所有误差事件的联合概率形式如下:
[
p(i, 1)w(1, 1, 1)\cdots w(1, 2, M) = p(i, 1)\prod_{r = 1}^{M}\prod_{l = 1}^{2}w(1, l, r) \quad (A2.1)
]
对于$j = 2$,联合概率为:
[
p(i, 2)w(2, 1, 1)\cdots w(2, 2, M) = p(i, 2)\prod_{r = 1}^{M}\prod_{l = 1}^{2}w(2, l, r) \quad (A2.2)
]
由于$w(1, 1, r) = w(2, 2, r)$和$w(1, 2, r) = w(2, 1, r)$对于所有$r = 1$到$M$都成立,考虑式(A2.1)和式(A2.2)定义的联合概率之比时,虽然乍一看可能很复杂,但可以通过上述等式进行简化。
以下是联合概率计算的mermaid流程图:
graph LR
A[定义结果概率p(i,j)] --> B[定义误差概率w(j,l,r)]
B --> C{j = 1?}
C -- 是 --> D[计算p(i,1)联合概率(A2.1)]
C -- 否 --> E[计算p(i,2)联合概率(A2.2)]
综上所述,RELR方法在处理高维数据、特征降维以及考虑变量误差等方面具有独特的优势。通过合理运用特征定义、约束条件和解的形式,我们可以构建有效的模型,并且在实际应用中根据数据特点进行灵活调整。同时,与传统的朴素贝叶斯方法相比,RELR更适合处理复杂的数据情况和交互作用。
超级会员免费看
13

被折叠的 条评论
为什么被折叠?



