- 博客(3)
- 收藏
- 关注
原创 6-变量选择之二
6、变量选择方法之二 6.1岭回归 对于Hitters数据集,先去掉缺失值 注:本文中的predict是自己之前定义的函数,参见变量选择方法之二 #去掉缺失值后,Salary作为因变量,其它19列作为自变量 Hitters =na.omit(Hitters) x <- model.matrix(Salary~.,Hitters)[,-1] y <- Hitters$Salary library(glmnet) #定义lambda值 grid <- 10^seq(10,-2,length =
2020-11-04 21:43:12
1604
原创 6-变量选择之一
6、变量选择方法之一 注:本文只提供书中R代码实例,更详细的内容参见教材 6.1最优子集选择 使用R中的Hitters数据,根据运动员过去的表现,预测它的薪水 首先查看数据是否存在缺失值,剔除缺失值(剔除缺失值后数据大小变为263*20) > library(ISLR) > fix(Hitters) > names(Hitters) [1] "AtBat" "Hits" "HmRun" "Runs" "RBI" [6] "Walks"
2020-11-04 11:27:21
3159
原创 5-再采样方法
5再采样方法 看了中大一位博主的文章,其中提到《an introduction to statistical learning with R》这本书,粗略看了下很受启发,本书可以作为统计学专业硕士自学教材。由于本人最近在做变量选择相关研究,于是从第五章开始学习。 最常用的两种再采样方法:交叉验证和自助法。交叉验证主要用于模型评估和模型选择。自助法用于评估参数估计或同级学习方法的精度。 5.1交叉验证 模型评估通常有训练集误差和测试集误差。当缺乏测试集时,需要从训练集产生测试集。 一个含有n个样本的数据集,随
2020-11-03 20:48:42
699
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅