自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 6-变量选择之二

6、变量选择方法之二 6.1岭回归 对于Hitters数据集,先去掉缺失值 注:本文中的predict是自己之前定义的函数,参见变量选择方法之二 #去掉缺失值后,Salary作为因变量,其它19列作为自变量 Hitters =na.omit(Hitters) x <- model.matrix(Salary~.,Hitters)[,-1] y <- Hitters$Salary library(glmnet) #定义lambda值 grid <- 10^seq(10,-2,length =

2020-11-04 21:43:12 1604

原创 6-变量选择之一

6、变量选择方法之一 注:本文只提供书中R代码实例,更详细的内容参见教材 6.1最优子集选择 使用R中的Hitters数据,根据运动员过去的表现,预测它的薪水 首先查看数据是否存在缺失值,剔除缺失值(剔除缺失值后数据大小变为263*20) > library(ISLR) > fix(Hitters) > names(Hitters) [1] "AtBat" "Hits" "HmRun" "Runs" "RBI" [6] "Walks"

2020-11-04 11:27:21 3159

原创 5-再采样方法

5再采样方法 看了中大一位博主的文章,其中提到《an introduction to statistical learning with R》这本书,粗略看了下很受启发,本书可以作为统计学专业硕士自学教材。由于本人最近在做变量选择相关研究,于是从第五章开始学习。 最常用的两种再采样方法:交叉验证和自助法。交叉验证主要用于模型评估和模型选择。自助法用于评估参数估计或同级学习方法的精度。 5.1交叉验证 模型评估通常有训练集误差和测试集误差。当缺乏测试集时,需要从训练集产生测试集。 一个含有n个样本的数据集,随

2020-11-03 20:48:42 699

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除