机器学习实现步骤
- 确定需求和目标
- 根据实际需求收集对应真实数据用作测试集和验证集(如果真实数据很多,也可以部分当作训练集)
- 收集丰富的训练数据集(尽可能的同测试集和验证集同一分布)
- 开源数据集
- 通过合成工具生成 (模拟真实数据集)
- 人工采集数据集(采集标注成本低的情况)
- 爬虫方式采集数据集(以上三种方式无法获取足够多数据的情况)
- 根据目标要求确定单一的评估指标
根据目标要求选择满足和优化指标,并对优化指标通过加权平均取得
- 确定算法
确定深度学习框架
确定网络模型结构
确定优化函数、激活函数和超参数
建议使用比较成熟的开源算法
- 训练
准备训练机器
搭建训练环境
训练参数选择(主要学习率)
分析训练结果并迭代优化
- 优化
分析训练结果(偏差、方差、数据不匹配度、错误分析)
优化偏差
优化方差
优化数据不匹配度
根据对结果进行错误分析进行进一步优化
以上步骤循环迭代