机器学习的基础:从数据预测到偏差 - 方差权衡
在机器学习的实践中,我们常常需要进行各种预测。例如,在自行车共享服务中,我们可以根据不同的因素来预测每天的骑行人数。
1. 温度预测骑行人数
首先,我们可以通过取特定温度附近几天的骑行人数平均值来进行预测。例如,当温度为28度时,我们选取温度最接近28度的5天数据,计算其总骑行人数的平均值:
mean(day1$tot[do5])
输出结果为5188.4,我们便可以预测在28度的日子里,大约会有5200名骑手使用自行车共享服务。不过,这里存在一些问题,比如为什么选择温度最接近28度的5天呢?5这个样本数量是太小还是足以做出准确的预测?这是机器学习中的一个核心问题。
2. 虚拟变量和分类变量
在处理数据集时,我们需要理解数据中代表虚拟变量的列。虚拟变量只取1和0两个值,取决于是否满足特定条件。例如,在 workingday 列中,0表示“否”(该日期不是工作日),1表示“是”(该日期是工作日)。像2011 - 01 - 05在 workingday 列的值为1,说明这是一个工作日。
虚拟变量有时也被正式称为指示变量,因为它们指示某个条件是否成立(代码1表示成立,0表示不成立)。在机器学习领域,另一个常用的术语是独热编码。
自行车共享数据中还包含分类变量,如 mnth 和 weekday ,以及 weathersit
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



