1.15. Isotonic regression(保序回归)
一、描述
保序回归,正如它的名字,是一种对预测值施加了“保序”约束的一种回归分析。“保序”的严格定义我们暂且不表,可以简单的理解为一种“对任意Xi≤XjX_i\le X_jXi≤Xj,必须有 yi≤yjy_i \le y_jyi≤yj”的一种约束。
在它的目标函数∑iωi(yi−yi^)2\sum_i\omega_i(y_i-\hat{y_i})^2∑iωi(yi−yi^)2 中,mse部分很好理解,代表损失,参数ωi\omega_iωi是基于“保序”的要求,对预测的一种修正。
保序回归,本质上就是针对实践环境中保序的情况提出的一种回归
二、应用场景(举例)
在这里,我们举一个典型的例子,并借此介绍一下PAVA算法
1. 药用环境
动物园有老虎逃了出来,我们要用麻醉针将其麻醉。想要找到一个合适的药用剂量使我们能麻醉老虎并让其不受伤害,我们要探究不同药用剂量的麻醉剂在老虎身上的作用。
在这里,自变量是麻醉剂的剂量,应变量是麻醉剂在老虎群众起作用的比例。拟合函数,我们得到的是一定剂量的麻醉剂在一只老虎身上起作用的概率。
定义一下变量,对于剂量xix_ixi,我们手上nin_ini只老虎的有效数据,其中tit_iti有只老虎被麻醉,比例为pi^\hat{p_i}pi^,而我们要求该剂量下的单只老虎被麻醉的概率为pip_ipi
2.PAVA
无约束
在没有约束条件的情况下,根据最大似然,我们可以求得,pi=pi^p_i=\hat{p_i}pi=pi^,证明如下:
对于剂量xix_ixi,我们设观测到在实际概率pip_ipi下,nin_ini只老虎中有pi^\hat{p_i}pi^比例被麻醉的概率,是一个不考虑顺序的二项分布。所以我们可以列出似然函数L(pi)=pinipi^(1−pi)ni(1−pi^)L(p_i)=p_i^{n_i\hat{p_i}}(1-p_i)^{n_i(1-\hat{p_i})}L(pi)=pinip