【sklearn的一般流程】数据的获取



1.生成回归数据 make_regression()

from sklearn.datasets import make_regression
X, y, coef = make_regression(n_samples=200, n_features=1, n_informative=1, n_targets=1,
                       bias = 0, effective_rank=None, noise = 20,
                        tail_strength=0,random_state=0, coef = True)

属性说明

属性 默认值 说明
n_samples int, optional (default=100) 样本数量
n_features int, optional (default=100) 特征数量
n_informative int, optional (default=10) 对回归有效的特征数量
n_targets int, optional (default=1) y的维度
bias float, optional (default=0.0) 底层线性模型中的偏差项。相当于y的中位数
effective_rank int or None, optional (default=None) 有效等级
noise float, optional (default=0.0) 设置高斯噪声的标准偏差加到数据上。
shuffle boolean, optional (default=True) 是否洗牌
coef boolean, optional (default=False) 如果为真,则返回权重值
random_state int, 设置随机种子

个人理解:
n_informative:该项为对本次回归有用的特征数量,举个例子,我们想要预测房价,手上的特征有:房子面积、房龄、地段和房主的名字,显然前3项特征时有效特征,而房主的名字属于无效特征,改变其值并不影响回归效果。这里的n_informative就是3,总特征数为4.
noise:其值是高斯分布的偏差值,其值越大数据越分散,其值越小数据越集中。
shuffle:设置是否洗牌,如果为False,会按照顺序创建样本,一般设置为True。

返回值:X ,y ,coef

效果图:
regression
其coef(权重值) = 96.19

当设置更大的noise之后:
regression_big_noise

2.生成分类数据 make_classification()

from sklearn.datasets import make_classification
X, y = make_classification(n_samples=200, n_fe
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值