R语言一种无偏变量选择的多元统计方法

本文介绍了R包MUVR,它使用repeated double cross validation (rdCV)方法,结合PLS和RF模型进行变量选择。适用于变量数大于观测数的大规模数据,支持分类和连续响应变量的分析。MUVR提供了数据预处理功能,并通过案例展示了如何寻找生物标记物和预测变量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读

今天给大家介绍的是一款施琳大神(现就读于查尔默斯大学,postdoc)于今年发表的一个R包-MUVR (Multivariate methods with Unbiased Variable selection in R),主要是为计算预测变量和响应变量之间的关系提供了一种新的算法,那么这里的响应变量既可以是连续变量用于回归分析,也可以是因子变量用于分类分析。另外一个我之所以介绍这个软件的原因是,它可以用于处理大规模变量数目大于观测数的数据格式,所以还是很友好的一个软件。因为大多数科研单位都不太可能做到那么大的样本量,除非是豪门!

文章介绍

  • 这个方法施琳师姐也是以一作和通讯的身份发表在了Bioinformatics杂志上,让我等有机会拜读。文章标题为Variable selection and validation in multivariate modelling

  • 再给个文章截图,有需要的可以自行下载(Open Access,DOI:10.1093/bioinformatics/bty710)

文章截图

方法原理简介

  • 那么从技术分析的角度,MUVR采用的是一种双重复交叉验证(repeated double cross validation, rdCV)的递归式的变量选择方法。MUVR包括了偏最小二乘(partial least squares, PLS)和随机森林(random forest, RF)模型。它有两种变量的选择方法:
  1. minimal-optimal variables: 最少-最优变量,主要用于发现具有预测性的生物标记物;

  2. all-relevant variables: 全部相关的变量,主要用于生物学呈现和机制研究。

  • MUVR的工作原理见下图

MUVR工作流程图

包的安装和案例演示

1.包的安装

  • 这里建议大家在安装了R软件的同时,安装一个Rstudio软件,这个软件非常友好,提供了很多可视化的界面。然后大家的包的下载,安装以及工作都在Rstudio这个软件上。

library(devtools)

install_git("https://gitlab.com/CarlBrunius/MUVR.git")

library(MUVR)

2.对于Y变量是分类变量的数据

首先要对输入的数据做个说明,这里的预测变量,暂且用大写的X表示,以及响应变量,用Y表示,两个输入数据必须是观测数要要一致(不论是数目还是ID都要相符合)。另外X的变量不能重复,要每一个都是唯一的。另外的一点就是数据的前处理这一块,因为随

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值