什么是统计机器学习/统计学习/机器学习?
三个词指的都是同一概念,这里统一简称为机器学习,指的是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
实现机器学习的步骤是什么?
- 得到有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习算法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
机器学习的分类
机器学习包括监督学习、非监督学习、半监督学习以及强化学习。
监督学习:训练数据同时包括输入和输出,也可以说是特征和目标。监督学习就是常见的分类问题。(《统计学习方法中主要讨论监督学习》)
非监督学习:输入数据没有标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本进行分类。
半监督学习:同时使用标记数据和未标记数据来进行模式识别工作。样本中只有少量带标记的样本,多数样本都未标记,利用这样的样本进行学习和统计。
强化学习:不同于前三种的学习方式,没有规则的训练样本和标签,主要通过奖励和惩罚达到学习的目的。
机器学习的核心三要素
统计机器学习方法都是由模型、策略和算法构成的。即:机器学习=模型+策略+算法。
- 模型:机器学习首要考虑的问题是学习什么样的模型。模型选择的典型方式是正则化和交叉验证。
- 策略:有了模型以后,机器学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。简单来说,在假设模型的基础上,用输入数据去产生输出,然后比较模型的s输出与数据真实输出之间的差别,换用数学表达就是损失函数或代价函数。当损失函数的值达到最小时,就找打了最优的结果。这样,监督问题就变成了经验风险或者结构风险函数的最优化问题。
- 算法:统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。