机器学习中的模型优化与正则化技术
1. 多项式逻辑回归模型
逻辑回归模型先对特征进行线性组合,再通过逻辑函数 $l(t) = \frac{1}{1 + e^{-t}}$ 将结果压缩到 $[0,1]$ 区间。这意味着我们可以像在线性模型中一样添加多项式项, regtools 包中的 qePolyLog() 函数就能实现这一操作。
1.1 职业预测示例
我们先使用非多项式逻辑回归来预测职业:
data(pef)
set.seed(9999)
qeLogit(pef,'occ')$testAcc
输出结果约为 0.646,考虑到有 6 个类别,约 35% 的准确率还算不错。接下来,我们尝试使用二次模型(即添加收入和年龄的平方项),看看是否能提高准确率:
set.seed(9999)
qePolyLog(pef,'occ',2)$testAcc
结果为 0.619,有轻微提升。但这可能是抽样误差吗?我们可以使用 qeCompare() 函数,通过多个保留集来比较不同阶数的多项式模型,以解决抽样问题。
2. 线性模型与其他方法的融合
2.1 k - NN 模型的边缘问题
以美国职业棒球大联盟球员数据为例,我们根据身高预测体重。数据的身高分布如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



