超级可爱的小航子咩-优快云博客

原创 6-变量选择之二

6、变量选择方法之二 6.1岭回归对于Hitters数据集，先去掉缺失值注：本文中的predict是自己之前定义的函数，参见变量选择方法之二 #去掉缺失值后，Salary作为因变量，其它19列作为自变量 Hitters =na.omit(Hitters) x <- model.matrix(Salary~.,Hitters)[,-1] y <- Hitters$Salary library(glmnet) #定义lambda值 grid <- 10^seq(10,-2,length =

2020-11-04 21:43:12 1604

原创 6-变量选择之一

6、变量选择方法之一注：本文只提供书中R代码实例，更详细的内容参见教材 6.1最优子集选择使用R中的Hitters数据，根据运动员过去的表现，预测它的薪水首先查看数据是否存在缺失值，剔除缺失值（剔除缺失值后数据大小变为263*20） > library(ISLR) > fix(Hitters) > names(Hitters) [1] "AtBat" "Hits" "HmRun" "Runs" "RBI" [6] "Walks"

2020-11-04 11:27:21 3159

原创 5-再采样方法

5再采样方法看了中大一位博主的文章，其中提到《an introduction to statistical learning with R》这本书，粗略看了下很受启发，本书可以作为统计学专业硕士自学教材。由于本人最近在做变量选择相关研究，于是从第五章开始学习。最常用的两种再采样方法：交叉验证和自助法。交叉验证主要用于模型评估和模型选择。自助法用于评估参数估计或同级学习方法的精度。 5.1交叉验证模型评估通常有训练集误差和测试集误差。当缺乏测试集时，需要从训练集产生测试集。一个含有n个样本的数据集，随

2020-11-03 20:48:42 699

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人