第一次写博客,也不知道写些啥,记录一下最近的机器学习感想,由于本科对机器学习比较感兴趣,但是本科的课程比较少与机器学习相关,所以就选择了考研,所幸,如愿以偿,进入到了高中时候的梦想学校,7月份就提前来到了学校,在导师的安排下,参加了一个工业大数据比赛,这个比赛可谓是一波三折,从对比赛的项目了解的越深,对这个比赛就越难以进行,题目的BUG太多,给出的训练数据太少,且数据的质量比较差,在小组成员以及导师的多番讨论下,都认为此题从各个角度都无从下手,也就是无法从传统的解题思路着手,主办方给出3个风机的全部数据,12号风机无故障,23号风机跟29号风机有故障,但是23号跟29号数据差异性非常大,虽然给出的是时间序列数据,但是却不能从时间序列的角度解题,这三个风机都是不同年份不同月份的数据,且采样周期也不一致,主办方需要我们根据训练数据,训练模型,来预测测试风机的高危区间,高危区间只有一个,也就是预测t2-t1,在预测时,只能根据前面的数据来预测后面的数据,在此题当中,t1比较容易确定,主要是不能确定t2,因为t1是在风机齿形带断裂前时刻,数据有明显特征,但是整个高位区间的数据与非高位区间的数据没有明显差异,且整体上来看,大部分特征呈现周期性变化,不好学习模型,学的的模型泛化性能比较差,且收敛性也比较差,试过各种算法,没有明显效果,我们是通过打标签的方式,将高危区间分为类别1,把非高危区间划分为类别0,然后训练分类器,不管是用23来预测29还是29预测23,效果都非常差,由于初赛阶段出现了非正常高分,在复赛阶段,又调整的比赛规则,测试数据将不再是某一个风机的全部数据,只是在每一个风机中随机截取一段10000左右的数据,然后预测接下来49625条数据中是否有齿形带断裂,如果有,预测齿形带断裂的位置,也就是t0的位置,比赛规则发生了比较大的变动,较之前合理些,但是由于没有相应的给出训练数据,难度更大,无从下手,总之觉得这个比赛有点坑,导师建议我们暂停这个比赛,但是我们组成员仍然想试试,毕竟也花了差不多两个月时间,总想做出点成绩
菜鸟机器学习随笔(一)
最新推荐文章于 2025-08-07 16:51:36 发布