机器学习模型的参数评估与应用
在机器学习领域,参数评估和模型选择是至关重要的环节。本文将深入探讨多个机器学习模型的参数设置、数据特征分析以及模型应用,帮助你更好地理解和运用这些技术。
1. 参数评估与稀疏性
在处理数据时,我们常常会遇到参数评估的问题。例如,在某些情况下,不同子集的数据可能会得到不同的 alpha 值,且对应的分数差异显著。
[fold 9] alpha: 0.06866, score: -0.10836
[fold 10] alpha: 0.04047, score: -0.08460
...
从这些数据可以看出, alpha 值不稳定,分数波动大,因此在这种情况下,我们不能完全信任 alpha 。这也提醒我们,在实际应用中,要始终测试超参数,因为现实世界的数据往往具有多维行为。
稀疏性是许多实际数据场景中常见的概念。数据可能会分散或缺失,在新的IML生态系统中,由于处理错误导致数据缺失是很常见的。而在成熟的IML生态系统中,工业化数据工程的引入和数据来源及沿袭的改进可以减少这种稀疏性。
为了演示稀疏性的概念,我们可以观察糖尿病数据集的特征1和特征2。即使特征2在完整模型中有很强的系数,但由于稀疏性,与特征1相比,它对目标变量 y 的贡献并不大。
2. 数据可视化与特征分析
通过3D可视化可以更直观地了解数据的分布特征。具体操作步骤如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



