逻辑回归与判别分析:乳腺癌分类模型探究
1. 数据划分
在进行模型训练和评估之前,需要将数据按比例划分为训练集和测试集。常见的划分比例有 50/50、60/40、70/30、80/20 等,具体选择应根据经验和判断。这里采用 70/30 的划分比例,代码如下:
set.seed(123) # 随机数生成器
ind <- sample(2, nrow(biopsy.v2), replace = TRUE,
prob = c(0.7, 0.3))
train <- biopsy.v2[ind==1, ] # 训练数据集
test <- biopsy.v2[ind==2, ] # 测试数据集
str(test) # 确认划分成功
为确保两个数据集的结果变量平衡,进行如下检查:
table(train$class)
table(test$class)
结果显示两个数据集中的结果比例是可接受的,接下来可以开始建模和评估。
2. 逻辑回归模型
R 语言中的 glm() 函数可用于拟合广义线性模型,其中包括逻辑回归。与 lm() 函数不同的是,需要使用 family = binomial 参数来指定进行逻辑回归。
首先创建一个包含所有特征的模型,并在测试集上评估其性能:
超级会员免费看
订阅专栏 解锁全文
2543

被折叠的 条评论
为什么被折叠?



