周志华西瓜书学习笔记
第一章 绪论
数据处理分为三个阶段:收集,分析,预测。
一、基本概念
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
Mitchell给出的更形式化的定义为:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中获得了性能改善,我们就可以说T和P,该程序对E进行了学习。
(一)泛化(generalization)
学得的模型适用于新样本的能力,称之为泛化能力。具有强泛化能力的模型能够更好地使用于整个样本空间。
(二)独立同分布(i.i.d)
通常假设样本空间的全体样本服从一个未知的分布(distribution),我们获得的每一个样本都是从整个样本空间中采样获得的,即“独立同分布”(independent and identically distributed, i.i.d)
二、假设空间大小计算
以文中的西瓜为例,求出假设空间:
这里我们的假设空间由形如“(色泽=?)^ (根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。
色泽有“青绿”和“乌黑”两种取值,还需考虑无论色泽取什么值都合适的情况,用通配符(*)表示。色泽属性共三种取值;
根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值,同理再加通配符(*)表示,根蒂属性共四种取值;
敲声有“浊响”、“清脆”和“沉闷”三种取值,同理再加通配符(*)表示,敲声属性共四种取值;
还有一种假设组成——可能"好瓜”这个概念就不成立,我们用∅表示这种假设。
那么,所对应的假设组成的个数为:3x4x4+1=49. 即表1所对应的假设空间的规模大小为49. 其中:
具体假设: 2x3x3=18 种
一个通配符:2x3+3x3+