5、逻辑回归与判别分析:乳腺癌分类模型探究

逻辑回归与判别分析:乳腺癌分类模型探究

1. 数据划分

在进行模型训练和评估之前,需要将数据按比例划分为训练集和测试集。常见的划分比例有 50/50、60/40、70/30、80/20 等,具体选择应根据经验和判断。这里采用 70/30 的划分比例,代码如下:

set.seed(123) # 随机数生成器
ind <- sample(2, nrow(biopsy.v2), replace = TRUE,
              prob = c(0.7, 0.3))
train <- biopsy.v2[ind==1, ] # 训练数据集
test <- biopsy.v2[ind==2, ] # 测试数据集
str(test) # 确认划分成功

为确保两个数据集的结果变量平衡,进行如下检查:

table(train$class)
table(test$class)

结果显示两个数据集中的结果比例是可接受的,接下来可以开始建模和评估。

2. 逻辑回归模型

R 语言中的 glm() 函数可用于拟合广义线性模型,其中包括逻辑回归。与 lm() 函数不同的是,需要使用 family = binomial 参数来指定进行逻辑回归。
首先创建一个包含所有特征的模型,并在测试集上评估其性能:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值