[上分指南] 2020华为云大数据挑战赛热身赛如何轻松快速提高10分?baseline简单解读与优化思路分享第一弹

本文作者JerryX分享如何在2020华为云大数据挑战赛热身赛中快速提高分数,通过解读baseline代码,提出对数据处理和模型优化的思考。文章探讨了数据读取、处理和模型训练的过程,并指出对时间序列数据简单平均可能的不足,鼓励读者深入理解比赛评价指标以优化模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[上分指南] 2020华为云大数据挑战赛热身赛如何轻松快速提高10分?baseline简单解读与优化思路分享第一弹

你感受过长期35.6483的绝望吗?
如果你回答是,那么请阅读本文!!

写在前面:大家好!我是练习时长半年的在读本科生数据小白JerryX,各位数据挖掘大佬多多指教!!欢迎大家多多点赞,多多评论,多多批评指正!!

下面,我们一边研究下baseline,一边看看如何脱离35.6483的苦海。

import moxing as mox
mox.file.shift('os', 'mox')
import os
import re
import json
import pandas as pd
from pandas import to_datetime
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.externals import joblib
from collections import OrderedDict

首先是常规操作,入一些必要的

# 获取竞赛数据集:将“obs-mybucket-bj4/myfolder”改成您的OBS桶名及文件夹
import moxing as mox
mox.file.copy_parallel('s3://obs-bdc2020-bj4/traffic_flow_dataset', 's3://obs-mybucket-bj4/traffic_flow_dataset')
print('Copy procedure is completed !')

我们再从华为云的OBS获取本次比赛的数据集traffic_flow_dataset并复制到本地路径下。

OBS_DATA_PATH = "s3://obs-mybucket-bj4/traffic_flow_dataset"
LOCAL_DATA_PATH = './dataset/train'
OBS_MODEL_DIR = "s3://obs-mybucket-bj4/modelfiles/model"
OBS_MODEL_PATH = OBS_MODEL_DIR + "/modelfile.m"
OBS_CONFIG_PATH = OBS_MODEL_DIR + "/config.json"
LOCAL_MODEL_PATH = './modelfile.m'
LOCAL_CONFIG_PATH = './config.json'

接下来,我们宏定义一些路径地址,包括后续调用数据集,保存模型等的路径。


# read data of one day and one direction
def read_file(path, filename):
    calfile = os.path.join(path, filename)
    original = pd.read_csv(calfile, header
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值