数据处理全流程:从估算需求到存储管理
1. 估算数据需求的实用工作流程
在完成初步研究后,接下来要挖掘工具并开展实验。核心任务是明确在有足够数据的情况下,所选的特征工程和机器学习管道能否取得理想结果。
1.1 估算数据需求的基本流程
- 捕获并优化小数据集 :此数据集应满足理想数据集的各项要求,只是规模大小需合适。后续内容将帮助你了解使数据达到良好状态所需的流程。
- 选择候选模型 :基于对潜在模型类型的研究,选择一个候选模型。建议从看似合理的最简单模型入手,因为简单模型通常更容易训练。避免在未排除简单有效替代方案的情况下,盲目尝试热门新技术。
- 分割数据集 :将数据集分成多个大小相同的块。每个块应与原始数据集具有相近的平衡和分布,可采用分层随机抽样,初始可分为约八个块。
- 训练模型并记录指标 :在一个数据块上训练简单模型,并记录性能指标。可使用超参数优化工具,排除超参数选择的影响。
- 增加数据并再次训练 :向训练数据中添加另一个数据块,重新从头训练相同模型(若之前使用了超参数优化工具则继续使用),并再次记录指标。
- 持续该过程 :不断添加数据块、训练模型并收集性能指标,直至使用完整个数据集。
- 绘制性能指标图表 :绘制的图表会类似图 7 - 2 中的某一个。通过观察曲线形状,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



