
机器学习竞赛
文章平均质量分 94
分享机器学习相关竞赛教程和实例,包括Kaggle,天池等
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【机器学习】阿里云天池竞赛——工业蒸汽量预测(7)
在选择一个模型进行训练后,如何判断模型的优势及优化模型的性能呢?一般可以从以下几个方面进行优化:欠拟合(高偏差)、过拟合(高方差)和正常拟合三种学习曲线:模型融合,即先产生一组个体学习器,再用某种策略将他们结合起来,以加强模型效果。随着集成中个体分类器数目的增加,集成学习器的错误率也会呈指数级下降,最终趋于零。综合个体学习器的优势是能够降低预测误差,优化整体模型的性能。而且个体学习器的准确性越高,多样性越大,模型融合的提升效果越好。按个体学习器的关系,模型融合技术可以分为两类:(1)个体学习器不存在强依赖原创 2022-10-22 20:00:00 · 2038 阅读 · 0 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(6)
好的特征对于模型性能有着至关重要的影响。可以通过合成特征、对特征做简单变换、用决策树创造新特征、特征组合等方法对特征进行优化。原创 2022-10-15 22:27:51 · 1547 阅读 · 2 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(5)
欠拟合、过拟合、L1正则化、L2正则化、ElasticNet联合正则化、网格搜索、随机搜索、LGB、随机森林原创 2022-10-15 20:48:25 · 1209 阅读 · 1 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(4)
数据关系是样本的分布规律,或者是特征与对应样本之间的关系。当一个模型恰到好处地表达了数据关系时,认为这个模型拟合效果好。欠拟合(underfitting)也叫高偏差(bias),是指算法所训练的模型不能完整地表达数据关系。在这种情况下,一般可通过增加额外的特征、增加多项式特征、减少λ\lambdaλ的值等方法来优化模型。过拟合(overfitting)也叫高方差(variance),指的是算法所训练的模型过多地表达了数据关系,此时很有可能表达的是数据间的噪声关系。在这种情况下,一般可通过收集更多的数据、使用原创 2022-10-15 19:53:52 · 1782 阅读 · 0 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(3)
利用这个方法,LightGBM可以在构造一个叶子的直方图后,可以用非常微小的代价得到它兄弟叶子的直方图,在速度上可以提升一倍。首先,最明显就是内存消耗的降低,直方图算法不仅不需要额外存储预排序的结果,而且可以只保存特征离散化后的值,而这个值一般用 8 位整型存储就足够了,内存消耗可以降低为原来的1/8。在遍历数据的时候,根据离散化的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。将待预测的数据集输入到训练好的模型中,得到预测结果。原创 2022-10-08 22:45:37 · 3962 阅读 · 10 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(2)
特征工程的处理流程为首先去掉无用特征,接着去除冗余的特征,如共线特征,并利用存在的特征、转换特征、内容中的特征以及其他数据源生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值,缺失值等)以符合模型的使用。在前面的数据探索中,通过KDE分布对比了特征变量在两个数据集中的分布情况,这里不再重复过程。使用相关系数法,先要计算各个特征对目标值的相关系数及相关系数的P值,然后根据阈值筛选特征。”,具体来说,特征越好、灵活性越强,构建的模型越简单、性能越出色。原创 2022-10-07 18:50:08 · 1708 阅读 · 0 评论 -
【机器学习】阿里云天池竞赛——工业蒸汽量预测(1)
其首先是利用从有效数据集中识别出的关系来评估缺失值,然后用计算的该变量所有已知值得平均值或中值(定量属性)或众数(定性属性)来替换给定属性得缺失值,此方法也是最常用的方法。例如,在某个数据集中需要预测缺失的年龄值,为了预测缺失项的价值,我们可以提取名称中的称呼(Master、Mr、Mrs、Miss)作为新变量。生成的新变量可能与目标变量有更好的相关性,有助于进行数据分析。黑色粗条中间的白点表示中位数,粗条的顶边和底边分别表示上四分位数和下四分位数,通过边的位置所对应的y轴的数值就可以看到四分位数的值。原创 2022-10-06 18:02:22 · 5180 阅读 · 0 评论 -
【Keras】用Keras快速实现Logistic Regression算法
经过100个epoch的训练,训练集的loss下降有所波动,而验证集的acc达到90%左右,可以通过增加epoch,调整batch_size,以及正则化参数等措施来提高模型训练效果。,是互联网广告常用的术语)预估的算法中,是一个简单的,有代表性的算法。LR计算速度非常快,在人工特征工程的辅助下,一般可以得到较好的结果。从图中我们可以看到sigmoid激活函数的自变量取值空间在[-4,4]的区间内对概率输出变化比较敏感,过拟合问题往往源自过多的特征,冗余的特征往往对模型的预测有较大的干扰。原创 2022-10-03 14:34:25 · 1219 阅读 · 0 评论