1.案例概述
肿瘤性质的判断影响着患者的治疗方式和痊愈速度。传统的做法是医生根据数十个指标来判断肿瘤的性质,预测效果依赖于医生的个人经验而且效率较低,而通过机器学习有望能快速预测肿瘤的性质。
2.数据集
本次肿瘤预测使用的数据集共有569组样本。其中,良性肿瘤211例、恶性肿瘤358例。数据集中变量的详细描述如下表所示,表格中的“肿瘤性质”列为目标变量,剩下的字段为特征变量,目前只选取了6个特征变量,在医疗行业中实际用于判断肿瘤性质的特征变量要多得多。 
本案例的目的是根据这些数据搭建朴素贝叶斯模型,帮助医生提高判断效率,从而及早展开治疗。
3.分析过程
(1)数据读取
import pandas as pd
df = pd.read_excel('肿瘤数据.xlsx')
df.head()

(2)提取特征变量和目标变量
X = df.drop(columns='肿瘤性质')
y = df['肿瘤性质']
①这里将数据划分为特征变量X和目标变量y。对于特征变量X,通过 d

最低0.47元/天 解锁文章
982

被折叠的 条评论
为什么被折叠?



