一、机器学习定义
机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。(计算机科学是研究“算法”的学问;机器学习是研究“学习算法”的学问)
二、分类
- 监督学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
监督学习和非监督学习的差别就是训练集目标是否人标注。他们都有训练集 且都有输入和输出
- 无监督学习:与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络(GAN)、聚类。
- 半监督学习:介于监督学习与无监督学习之间。
- 增强学习:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断
三、基本术语
- 数据集:记录的集合
- 实例(样本):数据集中记录的一个事件或对象(当在空间中表示是一个实例常称为“特征向量”)
- 属性:事件或对象在某方面的表现或性质
- 属性值:属性上的取值
- 属性空间(样本空间、输入空间):属性张成的空间
- 学习(训练):从数据中学得模型的过程
- 训练数据:训练过程中使用的数据
- 训练样本:数据中每个样本
- 训练集:训练样本的集合
- 归纳:特殊到一般的“泛化”
- 演绎:一般到特殊
- 归纳学习:归纳的过程
- 广义的归纳学习:从样例中学习
- 狭义的归纳学习:从训练数据中学的概念中学习
- 假设空间:可以用于假设的所有对象的集合
- 归纳偏好:学习过程中对某种类型假设的偏好(即机器算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观)
四、发展历程
二十世纪五十年代初到六十年代中期:
Hebb于1949年基于神经心理学的学习机制开启机器学习的第一步。此后被称为Hebb学习规则。Hebb学习规则是一个无监督学习规则,这种学习的结果是使网络能够提取训练集的统计特性,从而把输入信息按照它们的相似性程度划分为若干类。这一点与人类观察和认识世界的过程非常吻合,人类观察和认识世界在相当程度上就是在根据事物的统计特征进行分类。
二十世纪七十年代末到八十年代中叶:
人们从学习单个概念扩展到学习多个概念,探索不同的学习 策略和各种学习方法。这个时期,机器学习在大量的时间应用中回到人们的视线,又慢慢复苏。1980年,在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器归纳学习进入应用。
二十世纪初至今:
在机器学习发展分为两个部分,浅层学习(Shallow Learning)和深度学习(Deep Learning)。浅层学习起源上世纪20年代人工神经网络的反向传播算法(Back-propagation)的发明,使得基于统计的机器学习算法大行其道,虽然这时候的人工神经网络算法也被称为多层感知机(Multiple layer Perception),但由于多层网络训练困难,通常都是只有一层隐含层的浅层模型。神经网络研究领域领军者Hinton在2006年提出了神经网络Deep Learning算法,使神经网络的能力大大提高,向支持向量机发出挑战。 2006年,机器学习领域的泰斗Hinton和他的学生Salakhutdinov在顶尖学术刊物《Scince》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。