机器学习常见陷阱与原型开发指南
1. 机器学习常见陷阱
在机器学习实践中,存在一些常见的陷阱,了解这些陷阱有助于我们避免不必要的错误和损失。
- 陷阱 4:数据足够时未停止
通常情况下,数据越多越好,但机器学习算法在达到一定程度后会进入平台期,此时额外的训练样本不会显著提高准确性。因此,我们需要明确模型使用时所需的准确程度,设定合理的目标,避免在数据标注上过度投入成本。
- 陷阱 5:陷入维度灾难
“数据越多越好”原则对于观测值(行)适用,但对于特征(列)可能适得其反。例如,在预测美国房价时,使用邮政编码会大幅增加数据的维度,使数据变得稀疏,导致机器学习算法难以找到实际模式。为避免维度灾难,可采取以下措施:
- 谨慎添加新特征,及时删除冗余或无关特征,这可能需要扎实的领域专业知识。
- 尝试将属性之间的依赖关系编码为单个属性,减少变量之间的依赖,使机器学习算法更易理解数据。
- 陷阱 6:忽略异常值
异常值是指远高于数据集平均值的数据点。在包含人们工资和净资产的数据集示例中,异常值会使回归直线向其倾斜,导致对其他数据点的拟合效果不佳。许多算法,尤其是处理回归任务的算法,受异常值的影响较大,因此需要密切关注数据集中异常值的检测。
- 陷阱 7:想当然地依赖云基础设施
尽管云计算的采用率在迅速增长,但许多公司仍主要使用本地解决方案,其中一个重要原因是担心失去对数据的控制。建议至少使用非关键数据进行云计算(AIaaS 或 ML 平台)的原型开发,这将让我们快速起步,接触到前沿的
超级会员免费看
订阅专栏 解锁全文
1169

被折叠的 条评论
为什么被折叠?



