
炼丹记
小白Lan
never ever forever say never...
展开
-
炼丹记之国家电投2020风电机组异常数据识别与清洗 baseline f1=0.858分享
赛题地址:https://www.datafountain.cn/competitions/451赛题任务:依据提供的12台风力电机1年的10min间隔SCADA运行数据,包括时间戳信息、风速信息和功率信息等,利用机器学习相关技术,建立鲁棒的风电机组异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。异常数据是由风机运行过程与设计运行工况出现较大偏离时产生,如风速仪测风异常导致采集的功率散点明显原创 2020-09-21 17:32:02 · 3314 阅读 · 6 评论 -
炼丹记之Linux上成功安装fbprophet的一种方案
OS跟Python版本信息:OS :centos7Python:3.6.8然后再一段话:This usually means that the C++ compiler isn't hooked up correctly to PyStan. PyStan will successfully install even if it is not able to function correctly.You can use this code to check that pystan原创 2020-09-09 10:52:53 · 769 阅读 · 0 评论 -
炼丹记之solo四川诈骗电话识别复赛rank13分享
赛题地址:http://www.scdata.net.cn/kfds/urgent2/pages/index.html ,诈骗电话识别是算法对抗赛的赛题之一。attention:由于签了保密协议,本文不会提供代码涉及到的数据。参赛历程:初赛时,由于大佬开的baseline分数已经很高,于是本人只调了调baseline然后就弃赛了。然后初赛结束的时候竟然收到了进入复赛的短信,于是交保密协议,下载数据,算是复赛才开始正式参赛吧。本来给一个大佬的结果融合可以进入top4的,可惜没选中。本文参考的bl.原创 2020-08-27 10:26:33 · 2777 阅读 · 6 评论 -
炼丹记之科大讯飞2020温室温度预测baseline mse=0.25分享
# -*- coding: utf-8 -*-"""Created on Tue Jun 30 17:00:08 2020@author: csdn lanxuxml"""import pandas as pdtrain_data = pd.read_csv('train.csv')testA_data = pd.read_csv('test.csv')sub = pd.DataFrame(testA_data['time'])train_data = train_data[t.原创 2020-07-06 15:02:29 · 3598 阅读 · 0 评论 -
炼丹记之实战LSTM搭炉炼丹
写在前面:炉是垃圾炉,丹是垃圾丹(结的丹中age最高只有0.369,还没我用catboost刷出来的高)腾讯2020广告算法大赛地址:https://algo.qq.com/前一篇博文写了如何构造embedding vector,并且把vector转成了DataFrame格式,戳这里:炼丹记之在非典型NLP领域使用word2vec构造特征搭炉前的废话一:在实际操作的时候由于生成的creative_id二进制corpus被我不小心重写为空了,需要重新计算,所以这次造鼎炼丹用的是之前计算好的ad_i原创 2020-06-16 17:53:56 · 372 阅读 · 0 评论 -
炼丹记之在非典型NLP领域使用word2vec构造特征
最近各种竞赛上对时序数据进行embeding很火、效果很好,比如数字中国2020的智慧海海建设中rank1的分享,譬如2020腾讯广告大赛。为了上分,NLP小白一枚不得不花写时间来啃一下word2vec、doc2vec。now, show u the code:# -*- coding: utf-8 -*-"""Created on Thu Jun 4 16:23:02 2020@author: csdn lanxuml"""from gensim.test.utils impo原创 2020-06-05 16:47:10 · 387 阅读 · 0 评论