MapReduce之KNN算法
什么是 K K K-邻近算法(KNN)
KNN分类问题是找出一个数据集中与一个给定查询数据点最近的 k k k个数据点。这个操作也称KNN连接。定义为:给定两个数据集 R R R和 S S S,对于 R R R中的每一个对象,希望从 S S S中找到 k k k个最近的相邻对象。其中 R R R为查询数据集, S S S为训练数据集
KNN分类
KNN的中心思想为建立一个分类方法,使得对于将 y y y(响应变量)与 x x x(预测变量)关联的“平滑“函数 f f f的形式没有任何假设:
x = ( x 1 , x 2 , … , x n ) x=(x_1,x_2,\dots,x_n) x=(x1,x2,…,xn)
y = f ( x ) y=f(x) y=f(x)
函数 f f f