机器学习实际应用时的工程问题与面临的挑战
一、实现细节问题
1.1 训练样本
训练样本与标注对各类机器学习算法和模型的精度影响
训练样本的选择对各类机器学习算法和模型的影响
训练样本的优化
如何进行数据增强?
如何进行数据清洗?
样本的标注对各类机器学习算法精度的影响
样本的对齐
各个类的训练样本不均衡问题怎么解决
1.2 特征预处理
如果特征向量各分量的取值范围相差很大,会影响算法的精度与训练时的收敛
特征预处理方法
将特征向量归一化到单位长度
归一化可以通过学习实现