机器学习最佳实践指南
1. 数据处理与存储
在处理数据集时,有时完整的数据集中包含的信息较少。对于缺失值的处理,插补策略并不总是效果最佳,有时删除含有缺失值的样本可能更有效。因此,通过交叉验证比较不同策略的性能是一种很好的做法。
随着数据规模的不断增大,我们常常无法将数据全部存储在本地机器上,需要将其存储在云端或分布式文件系统中。存储大数据主要有两种策略:
- 纵向扩展(Scale-up) :当数据量超过当前系统容量时,通过增加更多磁盘等方式来增加存储容量,适用于需要快速访问数据的平台。
- 横向扩展(Scale-out) :存储容量随着存储集群中节点的增加而逐步增长。例如,Apache Hadoop 可用于在横向扩展集群上存储和处理大数据,数据会分散在数百甚至数千个节点上。此外,还有基于云的分布式文件服务,如亚马逊网络服务的 S3 和谷歌云的 Google Cloud Storage,它们具有高度可扩展性,设计用于安全持久的存储。
2. 训练集生成阶段
在数据准备好之后,就可以进入训练集生成阶段。这个阶段的典型任务主要分为数据预处理和特征工程两大类。
2.1 数据预处理
数据预处理通常包括以下几个方面:
- 识别具有数值的分类特征 :一般来说,分类特征传达的是定性信息,如风险等级、职业和兴趣等,比较容易识别。但如果特征采用离散且可数(有限)的数值,识别起来就会比较棘手。判断这类特征是分类特征还是数值特征的关键在于它是否具有数学或排序含义。如果有,则为数值特征,如 1 到
超级会员免费看
订阅专栏 解锁全文
1322

被折叠的 条评论
为什么被折叠?



