机器学习定义
是致力于研究如何通过计算的手段、经验来改善系统自身的性能。
“经验”以数据的形式存在,
机器学习关注的主要方向:
计算机从数据中产生“模型”的算法,即学习算法(learning algorithm)
基本术语
数据集:一组记录的集合
实例:数据集中对事件或者是对象的描述,由一系列属性与属性值组成
属性组成的空间叫做属性空间、样本空间。
每一个实例在属性空间里都是一个特征向量。
每一个实例有d个属性则:d叫做维数
训练数据:训练过程中使用的数据
训练样本:训练数据中的每一个样本
训练集: 所有的训练样本组成的集合
样例:在样本的基础上加上通过数据得到的结果信息(标记)
标记组成的空间称为标记空间或者输出空间
学习任务的分类:
分类:预测值是离散的 eg: 好 坏
若只有两个类别―――二分类(正类与反类)
若有多个分类――――多分类
回归:预测值是连续的 eg: 0.95 0.37
预测任务是希望通过训练集合的学习建立特征向量对输出结果的映射。
聚类:
将训练集中的数据分成若干的组,称为一个“簇”,这些自动形成的簇可能对应一些潜在的概念,这有助于探索内在的规律,这种潜在的概念是我们之前不知道的、未标记的。
学习任务的第二种分类:
监督学习: 分类和回归
无监督学习:聚类
泛化能力
是指学得的模型适应于新样本的能力。
――希望即使是无监督学习,也能适应在训练中没出现的样本。
独立同分布(i,i,d):假设样本空间中的所有数据服从一种未知的分布,而实验的数据都是独立的从这个分布上取得的。
假设空间
假设空间:由样本实例所有取值形成的假设组成。
归纳学习:“从样例中学习”是一种归纳的过程所以叫做归纳学习。
广义归纳学习:从样例中学习。
狭义归纳学习:从训练数据中获得的概念。――――概念学习。
版本空间:存在多个假设与训练集一致,存在一个与训练集一致的“假设集合”即为版本空间。
归纳偏好
归纳偏好:算法在学习过程中对某种类型假设的偏好。