1. 什么是机器学习
人的一生在不断学习,广义的学习包含观察世界、认识世界、形成世界观、改造世界的过程。我们通过眼睛观察生活,通过大脑思考其中的联系和规律,从而规划自己的人生路径,这是人的学习。我们总结自己和前人的经验,未来生活中遇到类似的事情,能够找到应对之法,这也是人的学习。
机器学习与人的学习一样,只不过学习主体从人变成了计算机,学习的对象变成了数据。计算机从数据中经过分析获得规律,并利用规律对未知数据进行预测,这一过程便是机器学习。
在吴恩达的课上,他引用了一段英文定义:
A computer program is said to learn from experience E with respect to
some class of tasks T and performance measure P, if its performance at
tasks in T, as measured by P, improves with experience E.
这段话中,E指积攒的经验和数据,统计学中我们称为样本和特征;T是我们想达成的任务,即目标;P是机器学习的评价指标。
举个例子,训练计算机判断收到的电子邮件是否为垃圾邮件。这个任务中,E是历史邮件以及人为标记的该邮件是否为垃圾邮件的标签;T是判断新邮件是否为垃圾邮件;P是正确分类的比例。
2. 机器学习的种类
监督式学习:训练集有明确答案,监督学习就是寻找问题(又称输入、特征、自变量)与答案(又称输出、目标、因变量)之间关系的学习方式。监督学习模型有两类,分类和回归。
• 分类模型:目标变量是离散的分类型变量。
• 回归模型:目标变量是连续性数值型变量。