声明一下:本人现在在学习机器学习以及深度学习方面的知识,想通过优快云平台去记录自己的学习历程,也希望可以和大家一起学习,共同进步。
文章目录
1.读取数据
df = pd.read_csv(
"london_bike_sharing.csv",
parse_dates=['timestamp'],
index_col="timestamp"
)
展示部分数据
2.添加特征(小时、天、月份、星期)
df['hour'] = df.index.hour
df['day_of_month'] = df.index.day
df['day_of_week'] = df.index.dayofweek
df['month'] = df.index.month
3.按月进行重新采样
df_by_month = df.resample('M').sum()#向下采样并执行聚合
4.划分训练集和测试集
train_size = int(len(df) * 0.9)
test_size = len(df) - train_size
train, test = df.iloc[0:train_size], df.iloc[train_size:len(df)]
print(len(train), len(test))
最后我们得到训练集和测试集的大小分别为15672 和1742。
5.数据预处理
拓展:我们在机器学习领域,总是看到“算法的鲁棒性”这类字眼。搜查资料发现鲁棒性可以有3个层面的概念:
1.模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;
2.对于模型假设出现的较小偏差,只能对算法性能产生较小的影响; 主