机器学习中的回归与分类应用
在机器学习的实际应用中,我们常常会遇到各种问题和挑战,需要运用合适的方法和技巧来解决。本文将介绍一些常见的问题及相应的处理方法,同时探讨分类模型的相关知识。
1. 特征添加与 k - NN 重新运行
在数据处理过程中,我们可能需要添加新的特征。例如,之前选择的特征列是 8、10 到 13 以及 16 列,现在决定将第 1 列的 instant 特征也加入。以下是具体的操作步骤:
# 选择之前的特征列
day1[,c(8,10:13,16)]
# 加载数据
data(day1)
# 添加 instant 特征列
day2 <- day1[,c(1,8,10:13,16)]
# 在新数据上重新运行 k - NN
kno <- qeKNN(day2,'tot',k=5)
# 查看测试集准确率
kno$testAcc
运行结果显示,MAPE 降至约 663,效果有所提升。
在使用 k - NN 等方法时,要注意研究现象的条件可能随时间变化,这可能成为影响预测质量的重要因素。有时候,时间变量可能没有明确体现,而是隐含在记录的顺序中。若不考虑这一点,可能会导致预测质量大幅下降。
2. 数据陷阱
2.1 脏数据问题
脏数据是数据分析中常见的问题。以共享单车数据为例,2011 年 1 月 1 日在 holiday 列中显示不是假期,但在美国这一天是联邦假日。另外,数据集中 weathersit
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



