- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 零基础入门数据挖掘-心跳信号分类预测 Task5模型融合
这次的task是学习模型融合。学习材料中介绍了一些模型融合的方法,主要是针对模型结果进行处理,即在模型结果层面上的融合。在模型结果层面上的融合首先想到的就是赋予不同的模型结果权重,所以在回归问题中有简单的加权平均法,在回归问题上有硬投票的方式(其实就是将每个模型的权重视为一样,选出众数),另外在回归问题上还有一些特殊的加权方式,比如mean平均,median平均等。但人为赋予不同的模型不同的结果权重,可能会不精准,无法找到最合适的模型结果权重以及将这些结果融合在一起的方式,这其实正是模型所能解决的问题,于是
2021-03-28 23:56:41
188
原创 零基础入门数据挖掘-心跳信号分类预测 Task4模型调参
本次任务主要是学习模型调参,学习材料主要介绍了贪心调参,网格搜索和贝叶斯调参3种调参方法。其中,贝叶斯调参对我来说是比较新鲜的知识。贝叶斯调参是一种基于高斯过程和贝叶斯定理的参数优化方法(高斯过程是是一系列服从正态分布的随机变量的联合分布),贝叶斯定理则是基于先验概率推测未来发生的概率。贝叶斯调参就是通过不断添加新的样本点来(贝叶斯定理)调整目标函数的后验分布(高斯过程),使其符合目标函数的真实分布。 贝叶斯调参包含几个内容, 1.目标函数:我们想要最小化的内容,在这里,目标函数是机器学习模型使用该组超参数
2021-03-25 20:12:06
226
原创 零基础入门数据挖掘-心跳信号分类预测 Task3特征工程
本次task3特征工程的主要内容是学习tsfresh包的使用,tsfresh包主要用于大批量时间序列数据的处理。通过extract_features这个方法可以自动提取很多基于时间序列的特征,包括 1.abs_energy(x),返回时序数据的绝对能量(平方和) 2.absolute_sum_of_changes(x),返回序列x的连续变化的绝对值之和 3.agg_autocorrelation(x, param) 返回时序数据的各阶差分值之间的聚合(方差、均值)统计特征 计算聚合函数f_agg(例如方
2021-03-22 18:18:10
337
原创 零基础入门数据挖掘-心跳信号分类预测 Task2数据分析
本次任务主要在于熟悉数据集,了解数据集,可以对数据集用文字或者图表进行总结。学习内容中对数据集的探查使用了head(),tail()来对数据集有一个整体认知,用shape(),descirbe(),info()等函数来看数据整体情况,以及isnull().sum()来探查NA情况,用value,counts()来探查数据的分布情况,skew()和kurt()来看数据的分布形状,并且用了seaborn的distplot来绘制数据形状。学习内容中还介绍了pandas_profiling,可以生成动态交互的数据探
2021-03-19 23:11:30
191
原创 零基础入门数据挖掘-心跳信号分类预测 Task1赛题理解与baseline学习
零基础入门数据挖掘-心跳信号分类预测 Task1赛题理解与baseline学习 赛题理解 这是一道多分类预测题,通过心电图感应数据来预测心跳信号所属类别,共有4种信号。数据量方面,训练集有10万条,测试集有2万条。数据特征方面,训练集有3列,一列id,一列信号序列(用逗号进行分隔),一列所属类别,测试集则只有id和信号特征两列。在模型评判指标方面,选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。 baseline学习 baseline采用了LG
2021-03-16 23:38:19
837
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅