天池大赛 - 蒸汽预测赛题
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
蒸汽预测赛题——模型融合(总结篇)
蒸汽预测赛题——模型融合 总结篇理论知识1. 导入包2. 对数据进行处理2.1 导入并合并数据2.2 查看Kde曲线并删除相关特征2.3 进行最大最小归一化 和 Box-Cox变换2.4 划分数据集2.5 用于基于模型的预测来检测离群值2.6 获得训练集和测试集3. 模型训练3.1 网格搜索模型3.2 网格搜索实例3.3 bagging4. 多模型Bagging5. 改进方向天池大赛比赛地址:链接成绩:理论知识改善模型方法研究模型学习曲线 判断模型是否过拟合或者欠拟合模型权重参数分析特原创 2020-12-07 12:35:50 · 931 阅读 · 0 评论 -
蒸汽预测赛题——特征优化
蒸汽预测赛题——特征优化理论知识1. 导入数据2. 构造特征3. 模型训练和评估天池大赛比赛地址:链接理论知识特征的简单变化单独特征列乘一个常数或者加一个常数,对新生成的特征毫无用处任何对单独特征列的单调变化,都不适用于决策树,X,X3 ,X5 一样特征的线性组合,仅适用于决策树和基于决策树的集成学习算法,树模型不擅长捕获不同特征之的相关性,SVM、线性回归、神经网络模型可以自身线性组合多项式特征(Polynomial feature)比例特征 X1/X2绝对值max(X1,X2)原创 2020-11-30 14:29:59 · 413 阅读 · 0 评论 -
蒸汽预测赛题——模型验证
蒸汽预测赛题——模型验证理论知识1. 导包2. 加载数据3. 拟合数据4. 交叉验证 K折KFold、留一法LeaveOneOut、留P法LeavePOut5. 模型超参空间搜索 GridSearchCV6.LGB模型5折交叉验证7. 学习曲线8. 验证曲线天池大赛比赛地址:链接理论知识欠拟合 高偏差增加额外特征增加多项式特征降低惩罚过拟合 高方差收集更多数据使用更少的特征增加惩罚**泛化:**机器学习模型学习到的概念在处理未遇到过的样本时的表现正则化:防止过原创 2020-11-29 21:36:58 · 336 阅读 · 1 评论 -
蒸汽预测赛题——模型训练
蒸汽预测赛题——模型训练理论知识1. 导入相关库2. 导入数据3. 切分数据4. 多元线性回归 LinearRegression5. K近邻回归 KNeighborsRegressor6. 随机森林回归 RandomForestRegressor7. LGB模型回归 lightgbm天池大赛比赛地址:链接理论知识回归用在目标数量连续时预测线性回归模型 LinearRegression假定因变量Y和自变量X呈线性相关 可以用Y=AX+b X是权重from sklearn.metr原创 2020-11-20 16:27:34 · 335 阅读 · 0 评论 -
蒸汽预测赛题——特征工程
蒸汽预测赛题之特征工程理论知识1. 导包并载入数据2. 异常值分析3. 最大值和最小值的归一化 MinMaxScaler4. 查看数据分布 kde5. 特征相关性 heatmap6. 特征降维 相关系数 > 0.17. PCA处理天池大赛比赛地址:链接理论知识特征工程处理流程去掉无用特征去除冗余特征 比如共线特征利用存在的特征、转换特征、内容中的特征生成新特征特征转换:数值化、类别转换、归一化特征处理 :异常值、最大值、最小值、缺失值特征处理总结类功能说明原创 2020-11-18 12:24:55 · 543 阅读 · 0 评论 -
工业蒸汽预测赛题——数据探索
蒸汽预测赛题之数据探索1. 导包2. 查看数据3. 画出所有特征字段的箱形图(boxplot)4. 直方图(displot)和Q-Q图(stats.proplot)5. 在训练集和测试集的KDE分布图(kdeplot)6. 线性回归关系图(regplot)7. 字段之间相关性(corr) 和 热力图(heatmap)8. 归一化处理9. Box-Cox变换(stats.boxcox)天池大赛比赛地址:链接1. 导包# 导入需要的包import numpy as npimport pandas as原创 2020-11-13 13:42:30 · 956 阅读 · 1 评论
分享