- 博客(4)
- 收藏
- 关注
原创 2-1、特征:特征选择、特征预处理(缩放)、特征抽取、特征构造
目录一、特征预处理对二维数组进行标准化实例化对指定轴方向元素进行标准化标准化缺失值替换实例化根据给定的变量值生成多项式模型技巧1、模型过拟合:表现:在学习曲线中训练集得分高,测试集得分低。解决方法:获取更多训练样本;减少输入的特征数量。2、模型欠拟合:表现:在学习曲线中训练集得分低,测试集得分也低。解决方法:增较有价值的特征;增加多项式特征。一、特征预处理fom sklearn ...
2021-10-17 16:22:11
1447
原创 6、集合算法
@toc一、自助聚合算法Bagging是Bootstrap Aggregating的缩写有放回的采样,从m个样本的原数据集里进行n次采样,构成一个含n个样本的新训练数据集来训练模型。重复上述过程B次,得到B个模型。当有新样本需要进行预测时,用这B个模型来预测,最后用投票方式或平均值来得到预测值。只是对同一数据集训练出多个模型。二、正向激励算法Boosting初始化时对数据集每个样本一个权...
2019-08-09 16:37:22
2227
原创 5、决策树
适用对象:数据有大量的多层次的名义特征或者数据有大量的数值特征,这些案例可能生成数量庞大的决策和一个过于复杂的决策树。优缺点:C5.0优点:可以处理数值型数据、名义特征一级缺失值。C5.0缺点:在根据有大量水平的特征进行划分时往往是有偏的思想:从代表整个数据集的根节点开始,选择最能预测目标累的特征,然后这些案例江北划分到这一特征的不同值的组中,形成第一组树枝。之后每次选择最佳的候选特征,直到...
2019-04-03 08:12:03
890
原创 2-4、模型选择
一、模型选择from sklearn import model_selection将数据集拆分为训练/测试集(一次)model_selection.train_test_split(data, target, test_size, train_size, random_state, shuffle, stratify)将列表、数组、矩阵或DataFrame随机拆分为训练集和测试集构成的...
2019-04-03 08:04:54
963
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人