真实世界的数据集通常都充满噪音和杂质,有的可能是缺少特征,有的可能是数据形式很难转换成整齐的 [n_samples, n_features
] 特征矩阵。怎么提取特征这件事情并没有万灵药,只能靠数据科学家不断地磨炼直觉、积累经验。
机器学习中最有趣、也是最具挑战性的任务就是图像识别,前面也已经介绍过一些通过像素级特征进行分类学习的案例。在真实世界中,数据通常不会像数据集这么整齐,再用简单的像素特征就不合适了。也正因如此,有关图像数据特征提取方法的研究取得了大量成果。
此次将介绍一种图像特征提取技术——方向梯度直方图(Histogram of
Oriented Gradients
,HOG
,http://bit.ly/2fCEAcb)。它可以将图像像素转换成向量形式,与图像具体内容有关,与图像合成因素无关,如照度(illumination
)。将根据这些特征,使用机器学习算法和内容开发一个简单的人脸识别管道。