机器学习精要

机器学习精要

01 导论

  1. 机器学习主要工作就是从大量数据中提取模式与趋势。
  2. 机器学习问题主要分为两类,有监督学习(根据输入变量预测输出变量)和无监督学习(根据输入变量分析相关关系和模式)。
  3. 输出变量常见分类,定量数据(股票价格)和定类数据(机动车和非机动车)。输入变量(features),输出变量(outcomes)。
  4. 预测模型也被称为learner。
  5. 有监督学习和无监督学习区别,有监督学习中同时拥有输入变量和输出变量,而在无监督学习中只有输入变量,没有输出变量的数据。
  6. 机器学习的几个例子:
    1. 有监督二分类问题,使用高频词汇和标点符号数据预测一份电子邮件是否是垃圾邮件。
    2. 有监督回归问题,使用临床指标数据集预测前列腺专门抗体含量值。
    3. 有监督多分类问题,使用输入数据为手写邮编的图片像素数据,预测手写正对的实际数字。
    4. 无监督聚类问题,对微阵列数据(行为不同基因,列为样本)的基因(行)做聚类分析。

02 有监督学习概述

2.1-2.2 术语与变量

  1. 中英术语对照:输入变量(inputs,features,independent variables),输出变量(outputs,responses,dependent variables)。

    1. 变量分类:定类变量(categorical,如机动车与非机动车),定量变量(quantitative,如股票价格),定序变量(ordered,如大,中,小三类)。定序变量通常需要转换为数值数据,这个方法叫编码(coding),新生成的变量叫哑变量(dummy variables)。
    1. 数学表达式:输入变量 X X ,定量输出变量Y,非定量变量 G G ,观察样本使用小写如xi,矩阵使用大写粗体如一个 N×p N × p 矩阵, X X 。变量 Xj X j 的所有观测值向量 xj x j X X 的第 i i 行向量xi。训练集记为 (xi,yi), (xi,gi), i=1:N ( x i , y i ) ,   或者 ( x i , g i ) ,   i = 1 : N
    2. 机器学习的基本任务就是通过输入变量 X X 来预测输出变量Y,预测值记为 Y^ Y ^

2.3 最小二乘法(有较多假设条件)和 k k 近邻法(假设条件较少)。

2.3.1 线性模型与最小二乘

线性模型给定一个输入变量X=(X1,X2,,Xp),需要建立的线性模型为

Y^=β^0+j=1pXjβ^j,(2.3.1) (2.3.1) Y ^ = β ^ 0 + ∑ j = 1 p X j β ^ j ,
矩阵形式为 Y^=X^β^ Y ^ = X ^ ⊤ β ^ 。参数推断部分主要就是估计模型
y=Xβ+ϵ, (2.3.2.1) (2.3.2.1) y = X β + ϵ ,  
参数 β β ,这里 y y N×1 N × 1 X X N×p N × p 。参数 β β 可以使用最小二乘法估计
RSS(β)=(yXβ)T(yXβ),(2.3.2.2) (2.3.2.2) R S S ( β ) = ( y − X β ) T ( y − X β ) ,
公式(2.3.2.2)对参数 β β 求偏导得出
XT(yXβ)=0, X T ( y − X β ) = 0 ,
此处如果 XTX X T X 可逆,那么有
β^=(XTX)1XTy, β ^ = ( X T X ) − 1 X T y ,
把求出的 β^ β ^ 代入(2.3.1)得到的新的预测模型为
y^i=xTiβ^. y ^ i = x i T β ^ .

2.3.2 k k 近邻方法
  1. k近邻方法最终需要拟合一个模型为 Y^(x)=1kxiNk(x)yi Y ^ ( x ) = 1 k ∑ x i ∈ N k ( x ) y i ,其中 Nk(x) N k ( x ) 是以 x x 为中心的k个最近点组成的邻域。
    2.3.3 最小二乘法与 k k 近邻法比较
    1. 最小二乘法拟合的线性模型假设条件多,方差低,偏差高。k近邻法假设条件少,方差高,偏差低。

      2.4 统计决策理论

      XRp X ∈ R p ​ 为输入变量, YR Y ∈ R ​ 为输出变量,联合分布函数为 Pr(X,Y) Pr ( X , Y ) ​ ,机器学习要做的事就是找到一个函数 f(X) f ( X ) ​ 用来根据输入变量 X X ​ 预测输出变量 Y Y ​ ,此处损失函数设为 L(Y,f(X))=(Yf(X))2 L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 ​ 。使用EPE(expected prediction error)来优选模型, EPE(f)=E[Yf(X)]2=[yf(x)]2Pr(dx,dy)={[yf(x)]2f(y|x)dy}f(x)dx=EXEY|X([Yf(X)]2|X) EPE ( f ) = E [ Y − f ( X ) ] 2 = ∫ [ y − f ( x ) ] 2 Pr ( d x , d y ) = ∫ ∫ { [ y − f ( x ) ] 2 f ( y | x ) d y } f ( x ) d x = E X E Y | X ( [ Y − f ( X ) ] 2 | X ) ​

      最后通过通过最小化 EPE(f) EPE ( f ) 求出 f(x)=argmincEY|X([Yc]2|X=x)=E(Y|X=x) f ( x ) = argmin c E Y | X ( [ Y − c ] 2 | X = x ) = E ( Y | X = x ) ,这表明在均方差Mean Squared Error的条件下,条件均值(conditional mean)就是最优预测。

      k k 近邻方法使用的就是这种思想有f^(x)=Avg(yi|xiNk(x)), Avg Avg 表示均值。

      而线性回归做的事是使用一个线性组合函数来逼近 f(x) f ( x ) ,有 f(x)xTβ f ( x ) ≈ x T β 。这种方法称为model based aprroach,即用模型来描述回归问题。

      最小二乘与 k k 近邻都是用于逼近条件均值的方法,最小二乘使用一个全局线性函数,而k近邻使用的是一个局部均值来逼近。

      对于输出变量为

      2.5 高维中的方法

      2.6 统计模型,有监督学习与函数逼近

      2.7 回归模型

      2.8 有约束估计量类别

      2.9 模型选择,偏差-方差权衡

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值