R包pls的偏最小二乘(PLS)回归
偏最小二乘(Partial Least Squares,PLS)回归是一种基于协方差的回归方法,属于基于降维(特征、成分)的回归方法的范畴,通过对自变量降维获得较小的一组不相关成分,并对这些成分执行回归的技术。当响应变量是一组连续变量时,PLS执行回归;当响应变量是一组类别型变量时,PLS执行监督分类(即PLS-DA)。本篇主要简介PLS回归。
偏最小二乘(PLS)回归的特点
PLS使用hPLS1和PLS2算法(hPLS1 and PLS2 algorithms,hPLS1对应于只有一个响应变量的情况,PLS2对应于存在多个响应变量的情况,hPLS1可视为PLS2的特例)计算成分,目的是选择能够最大程度解释响应变量的一组成分,降维后的成分代表了最能解释响应变量矩阵的特征。对比另一种类似的基于成分的回归方法,主成分回归(PCR),自变量矩阵的降维过程是独立进行的,与响应变量矩阵无关,获得的成分主要描述了自变量的特征。因此与主成分回归相比,PLS更易于辨识系统信息与噪声,对观测值的不确定性更具鲁棒性,并使得回归系数将更容易解释。
尽管PLS允许在单个模型中拟合多组响应变量,但只有当多组响应变量间不相关时,才适用于对多组响应变量的建模。
如果从主成分回归或从PLS回归获得的成分数量等于原始自变量的数量,则三种方法(偏最小二乘回归,主成分回归和普通最小二乘回归)返回的结果(自变量矩阵对响应变量矩阵的解释程度)相同。
作为一种基于成分的回归方法,PLS的其它普遍特点可参考前文“基于降维(特征、成分)的回归”的描述。
对于应用,PLS更建议使用于数据集中变量数远大于样本数,且变量间存在更高度相关时的情况。例如很多组学数据集具有非常高维的特征,这些数据中变量数量远远大于观测样本的数量,并且变量间存在高度相关(共线性)。特别是蛋白质组、代谢组等光谱测量值数据,光谱测量值中包括许多普遍相关的化学成分或各种理化特性之间的关系。因此, PLS更多应用于对光谱测量值(NIR、IR、UV)之间的关系进行建模,这也是在文献中见到的PLS应用最多的情景。
R包pls的偏最小二乘(PLS)回归
接下来以R包pls中的方法为例,简单展示PLS回归的实现。同样地,以某光谱数据为例。
示例数据
pls包的内置数据集yarn,记录了28个不同密度的涤纶纱在268种不同波长下的近红外光谱测量数据。
library(pls)
#示例数据,详情 ?yarn
data(yarn)
head(yarn)

本文介绍了PLS回归的特点,对比了它与主成分回归的区别,强调了PLS在高维度和变量相关性高的数据集中的优势。通过R包`pls`展示了如何进行PLS回归,以涤纶纱光谱数据为例,讨论了如何选择成分数量、评估模型性能和变量重要性,并提到了PLS在分类问题中的应用——偏最小二乘判别分析(PLS-DA)。
最低0.47元/天 解锁文章
959

被折叠的 条评论
为什么被折叠?



