进来经常遇到非参数估计的问题——k近邻,meanshift,核密度估计等,因此,打算这两天把这个部分的理论知识系统的学习一遍,并在此做好感受。
1、引子:关于男女身高差异的问题。
这是我在某网络公司面试机器学习岗位时,面试官问我的一个问题:如何度量男女身高分布的差异性?
我当时的第一反应是均值和方差。
但是,均值和方差是在默认数据服从正态分布的情况下的统计量,那男女身高的分布都服从正态分布吗?不然!
接着,我想到了更细致一些的直方图估计,然后可以在L1范数归一化的直方图上做相似性度量。度量方法多种多样,常见的有:相关度(欧氏距离、鱼线距离)、卡方系数、相交系数、巴氏距离等,详细参考:http://blog.youkuaiyun.com/cxf7394373/article/details/6955530
直方图估计作为一种快速简单有效的非参数估计方法,可以在一定的精确度上反应数据的分布情况,但是,直方图估计的精确性取决于bin的宽度,当bin较宽时,直方图估计误差较大。
后来,我还想到了高斯混合模型建模男女身高的差异性的问题,这是在单峰的高斯模型假设的推广,作为有参的概率密度估计的推广,当然还可以使用别的模型。
而生活中存在的大量的数据,是我们无法预知的分布,我们并不能用一个已知形式的模型来拟合它的分布,这个时候,我们就需要借助强大的非参数估计方法。上面说的直方图便是其中的一种。
下面,将以Duda的《模式分类》作为主要参考资料,介绍非参数估计技术在概率密度估计中的应用。