模型建立流程

在模型建立过程中,首先通过print(pdData.describe())检查数据,处理缺失值,如数值型用均值填充,字符串型用众数填充。接着,进行数值转换,例如将“Sex”特征的“male”转换为0。对于二分类问题,可以选择数值型特征,使用线性回归或随机森林方法。线性回归中,使用KFold进行交叉验证。而随机森林则结合cross_val_score评估效果。参数调优可借助GridSearchCV进行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据预处理:

当接收到数据以后,我们应该使用print(pdData.describe())观察数据,是否有缺失值,使用pdData.head()方法,去查看有哪些特征值进行数值转换,将字符串变成0,1。

数据缺失:数值型采用均值填充,字符串型采用众数填充。pdData["Age"].fillna(pdData["Age"].median());  

数值转换:pdData.loc(pdData["Sex"]=="male","Sex")=0   使用print(pdData["Sex"].unique())查看"Sex"特征值


数据二分类:选择数值型的变量作为特征,判断目标值

线性回归解决问题:

 首先导入sklearn库中的LinearRegression和交叉验证cross_validation模块的KFold库

 1.创建特征数组 2.获得LinearRegression对象alg 3.利用KFold创建对象,需要传入数据总行数pdData.shape[0]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值