蛋白质亚细胞定位预测方法综述
1. 多标签惩罚逻辑回归分类器 mPLR - Loc
1.1 单标签惩罚逻辑回归
对于两类单标签问题,给定训练数据集 ${x_i, y_i} {i = 1}^N$,其中 $x_i \in R^{T + 1}$,$y_i \in {0, 1}$,在本文中 $x_i = [1\ q_i]$,$q_i$ 由特定方程定义。逻辑回归中,后验概率定义为:
$Pr(Y = y_i|X = x_i) = p(x_i; \beta ) = \frac{e^{\beta^T x_i}}{1 + e^{\beta^T x_i}}$
当训练实例数量 $N$ 不比特征维度 $T + 1$ 大很多时,使用无正则化的逻辑回归易导致过拟合。为避免过拟合,在惩罚交叉熵误差函数中添加 $L_2$ 正则化惩罚项:
$E(\beta ) = -\sum {i = 1}^N [y_i \log(p(x_i; \beta )) + (1 - y_i) \log(1 - p(x_i; \beta ))] + \frac{1}{2} \rho |\beta | 2^2$
$= -\sum {i = 1}^N [y_i \beta^T x_i - \log(1 + e^{\beta^T x_i})] + \frac{1}{2} \rho \beta^T \beta$
其中 $\rho$ 是用户定义的惩罚参数,可通过交叉验证确定。
为最小化 $E(\beta )$,使用牛顿 - 拉夫森算法:
$\beta^{new} = \beta^{old} - (\frac{\partial^2 E(\be
超级会员免费看
订阅专栏 解锁全文
81

被折叠的 条评论
为什么被折叠?



