theme: orange
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第20天,点击查看活动详情。
众所周知,机器学习增强了人类的能力,让以前人脑不可能的事情变成了可能。机器学习目前广泛应用于金融、产品销售、新媒体、医疗、社会科学、游戏娱乐、工业制造等众多领域,它无处不在,并且在蓬勃发展!但接下来的问题是,应用场景虽然不同,但其原理都是相同的,那么机器是如何学习的?
学习方式分类
机器学习主要是分为监督式学习(Supervised learning) 和非监督式学习(Unsupervised learning) 两大类。
两者的区别在于训练的数据中是否有目标变量,监督式学习中,提供了标记数据的正确结果,对于标记数据的行为,用术语来说,其意味着我们事先知道数据的正确输出值。 而对非监督式学习,数据并没有标记。
那么除了上面的主流学习方式,还有其它哪些呢?
- 半监督式学习( semi-supervised learning)
- 强化学习(Reinforcement learning)
- 对抗性学习(Adversarial learning)
监督式学习
监督式学习,取关键词“监督“,其概念来自于标记数据。
在标签的帮助下,机器学习的模型的预测可以与已知的正确值进行比较。这有助于测量模型的准确性和计算损失。同时这反过来有可以用作对模型的反馈,以便进一步改进其预测。
分类
监督式学习分两大类,包括回归分析和分类问题。
回归分析(Regression)
在这种类型的任务中,模型试图预测一个数值(实数),即预测内容为连续值,比如估价预测(股价是连续变化的值),根据住房数据预测住房价格等等。
分类问题(Classification)
在这种类型的任务重,模型试图将给定的输入分成一个数据类型,即预测内容为类别值(非连续值),比如股价涨跌预测(只有涨、跌两种值),将肿瘤分为恶心或者是良性等等。
模型
从机器学习模型的角度,可以将监督式学习分成不用的算法模型,包括但不限于
- 线性回归模型
- 逻辑回归模型
- 决策树模型
- 朴素贝叶斯模型
- K近邻(KNN)模型
- 随机森林模型
- AdaBoost与GBDT模型
- XGBoost与LightGBM模型
- 神经网络模型
例子
借助于书籍《Python 大数据分析与机器学习商业案例实战》,讲解一个实际例子。
监督式学习(训练数据中有目标变量)如下图所示,它的训练数据中有3个特征变量(体型、毛发、特点)和1个目标变量(品种),该机器学习的目的就是根据训练数据搭建模型来预测狗的品种。
提醒
在监督学过程中,我们需要谨慎使用标签的程度,或者用机器学习术语来说,就是谨慎训练我们的模型的程度。训练多度的隐患是过度拟合,当新数据进来时,模型常常无法正确执行!