机器学习精要
01 导论
- 机器学习主要工作就是从大量数据中提取模式与趋势。
- 机器学习问题主要分为两类,有监督学习(根据输入变量预测输出变量)和无监督学习(根据输入变量分析相关关系和模式)。
- 输出变量常见分类,定量数据(股票价格)和定类数据(机动车和非机动车)。输入变量(features),输出变量(outcomes)。
- 预测模型也被称为learner。
- 有监督学习和无监督学习区别,有监督学习中同时拥有输入变量和输出变量,而在无监督学习中只有输入变量,没有输出变量的数据。
- 机器学习的几个例子:
- 有监督二分类问题,使用高频词汇和标点符号数据预测一份电子邮件是否是垃圾邮件。
- 有监督回归问题,使用临床指标数据集预测前列腺专门抗体含量值。
- 有监督多分类问题,使用输入数据为手写邮编的图片像素数据,预测手写正对的实际数字。
- 无监督聚类问题,对微阵列数据(行为不同基因,列为样本)的基因(行)做聚类分析。
02 有监督学习概述
2.1-2.2 术语与变量
中英术语对照:输入变量(inputs,features,independent variables),输出变量(outputs,responses,dependent variables)。
- 变量分类:定类变量(categorical,如机动车与非机动车),定量变量(quantitative,如股票价格),定序变量(ordered,如大,中,小三类)。定序变量通常需要转换为数值数据,这个方法叫编码(coding),新生成的变量叫哑变量(dummy variables)。
-
- 数学表达式:输入变量 X X ,定量输出变量,非定量变量 G G ,观察样本使用小写如,矩阵使用大写粗体如一个 N×p N × p 矩阵, X X 。变量 Xj X j 的所有观测值向量 xj x j 。 X X 的第 i i 行向量。训练集记为 (xi,yi), 或者(xi,gi), i=1:N ( x i , y i ) , 或者 ( x i , g i ) , i = 1 : N 。
- 机器学习的基本任务就是通过输入变量 X X 来预测输出变量,预测值记为 Y^ Y ^ 。
2.3 最小二乘法(有较多假设条件)和
k
k
近邻法(假设条件较少)。
2.3.1 线性模型与最小二乘
线性模型给定一个输入变量,需要建立的线性模型为
2.3.2
k
k
近邻方法
- 近邻方法最终需要拟合一个模型为
Y^(x)=1k∑xi∈Nk(x)yi
Y
^
(
x
)
=
1
k
∑
x
i
∈
N
k
(
x
)
y
i
,其中
Nk(x)
N
k
(
x
)
是以
x
x
为中心的个最近点组成的邻域。
2.3.3 最小二乘法与
k
k
近邻法比较
- 最小二乘法拟合的线性模型假设条件多,方差低,偏差高。近邻法假设条件少,方差高,偏差低。
2.4 统计决策理论
设 X∈Rp X ∈ R p 为输入变量, Y∈R Y ∈ R 为输出变量,联合分布函数为 Pr(X,Y) Pr ( X , Y ) ,机器学习要做的事就是找到一个函数 f(X) f ( X ) 用来根据输入变量 X X 预测输出变量 Y Y ,此处损失函数设为 L(Y,f(X))=(Y−f(X))2 L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 。使用EPE(expected prediction error)来优选模型, EPE(f)=E[Y−f(X)]2=∫[y−f(x)]2Pr(dx,dy)=∫∫{[y−f(x)]2f(y|x)dy}f(x)dx=EXEY|X([Y−f(X)]2|X) EPE ( f ) = E [ Y − f ( X ) ] 2 = ∫ [ y − f ( x ) ] 2 Pr ( d x , d y ) = ∫ ∫ { [ y − f ( x ) ] 2 f ( y | x ) d y } f ( x ) d x = E X E Y | X ( [ Y − f ( X ) ] 2 | X )
最后通过通过最小化 EPE(f) EPE ( f ) 求出 f(x)=argmincEY|X([Y−c]2|X=x)=E(Y|X=x) f ( x ) = argmin c E Y | X ( [ Y − c ] 2 | X = x ) = E ( Y | X = x ) ,这表明在均方差Mean Squared Error的条件下,条件均值(conditional mean)就是最优预测。
k k 近邻方法使用的就是这种思想有, Avg Avg 表示均值。
而线性回归做的事是使用一个线性组合函数来逼近 f(x) f ( x ) ,有 f(x)≈xTβ f ( x ) ≈ x T β 。这种方法称为model based aprroach,即用模型来描述回归问题。
最小二乘与 k k 近邻都是用于逼近条件均值的方法,最小二乘使用一个全局线性函数,而近邻使用的是一个局部均值来逼近。
对于输出变量为