1.初学机器学习的第一本书:通读、速读;(计划一天至少20页)
7.24日
第一章绪论
1.1引言
机器学习所研究的主要内容是关于再计算机上从数据中产生“模型”的算法,即“学习算法”。
1.2基本术语
数据集(data set)
样本(sample)
特征(feature)
样本空间(sample space)
从数据中学得模型的过程成为“学习(learning)或者训练(training)”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为“训练样本”(training sample),训练样本组成的集合成为训练集(training set)。学得的模型对应了关于数据的某种潜在的规律,也成为“假设"(hypothesis),这种潜在的规律自身,成为”真相“(ground-truth),学习过程就算为了找出或者逼近真相,模型也被成为”学习器“(learner)
预测(prediction)
示例结果”:标记 (label)
预测离散值——分类(classification)
——“二分类”(binary classification)
——“多分类"(multi-class classification)
预测连续值——回归(regression)
根据训练数据是否具有标记信息——”监督学习“(supervised learning)--分类回归
——”无监督学习“(unsupervised learning)--聚类
机器学习的目标是为了使得学得的模型能更好地适用于新样本。而不仅仅是再训练样本上工作的好。——泛化(generalization)
1.3假设空间
归纳(induction)——特殊到一般的泛化
演绎(deduction)——一般到特殊的”特化“(specialization)
1.4归纳偏好


WEKA——机器学习算法程序库
第一章22页,学习完成