概论
统计学习方法是关于计算机基于数据构建概率统计模型病运用模型对数据进行分析与预测的一门学科,统计学习包括监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)。
统计学习方法三要素——模型(model)策略(strategy)、算法(algorithm)。
监督学习是从给定有限的训练数据出发,假设数据是独立分布的,而且假设模型属于摸个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对于已给训练数据即测试数据在给定评价标准意义下有最准确的预测。
统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题,如果只考虑减少训练误差,就有可能产生过拟合现象,模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。
分类问题、标注问题和回对问题都是监督学习的重要问题,统计学习方法包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯提回归与最大熵模型、支持向量机、提升方法、EMS算法、隐马尔可夫模型和条件随机场。他没有刻意归类为生成方法与判别方法。
K近邻法
- K 近领法是基本且简单的分类与回归方法,K近邻的基本做法是,对给定的训练实例点和输入实例点,首先确定输入实例点的K个最近邻训练实例点,然后利用这K个训练实例点的类的多数来预测输入实例点的类。
- K近邻模型对应于基于训练数据集合、