07 集成学习 - 随机森林案例一:宫颈癌预测 - 缺省数据填充策略、PCA降维、ROC曲线、标签二值化...

本文介绍了使用随机森林进行宫颈癌预测,探讨了数据预处理中的缺省值填充策略,PCA降维,ROC曲线和标签二值化等技术。通过随机森林模型展示了如何处理多目标值预测问题,并分析了模型的性能,如AUC值。实验结果显示,随机森林在不同树数目和最大深度设置下,模型的准确率有所变化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01 集成学习 - 概述、Bagging - 随机森林、袋外错误率
02 集成学习 - 特征重要度、Extra Tree、TRTE、IForest、随机森林总结
03 集成学习 - Boosting - AdaBoost算法原理
04 集成学习 - Boosting - AdaBoost算法构建
05 集成学习 - Boosting - GBDT初探
06 集成学习 - Boosting - GBDT算法原理、总结

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn import tree
# 引入了集成学习的随机森林库
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import label_binarize
from sklearn import metrics

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

names = ['Age', 'Number of sexual partners', 'First sexual intercourse',
       'Num of pregnancies', 'Smokes', 'Smokes (years)',
       'Smokes (packs/year)', 'Hormonal Contraceptives',
       'Hormonal Contraceptives (years)', 'IUD', 'IUD (years)', 'STDs',
       'STDs (number)', 'STDs:condylomatosis',
       'STDs:cervical condylomatosis', 'STDs:vaginal condylomatosis',
       'STDs:vulvo-perineal condylomatosis', 'STDs:syphilis',
       'STDs:pelvic inflammatory disease', 'STDs:genital herpes',
       'STDs:molluscum contagiosum', 'STDs:AIDS', 'STDs:HIV',
       'STDs:Hepatitis B', 'STDs:HPV', 'STDs: Number of diagnosis',
       'STDs: Time since first diagnosis', 'STDs: Time since last diagnosis',
       'Dx:Cancer', 'Dx:CIN', 'Dx:HPV', 'Dx', 'Hinselmann', 'Schiller',
       'Citology', 'Biopsy']#df.columns
path = "datas/risk_factors_cervical_cancer.csv"  # 数据文件路径
data = pd.read_csv(path)
X = data[names[0:-4]]
Y = data[names[-4:]]
#随机森林可以处理多个目标变量的情况
X.head(5)
Y.head(5)

X.head(5)

这个案例中需要预测的目标有四个目标值:Hiselmann、Schiller、Citlolgy、Biopsy。随机森林模型的一个特点是它可以同时预测多个属性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值