有监督学习
机器学习分为有监督学习,无监督学习,半监督学习,强化学习。对于逻辑回归来说,就是一种典型的有监督学习。
既然是有监督学习,训练集自然可以用如下方式表述:
{(x1,y1),(x2,y2),⋯,(xm,ym)}
{(x1,y1),(x2,y2),⋯,(xm,ym)}
对于这m个训练样本,每个样本本身有n维特征。再加上一个偏置项x0x0, 则每个样本包含n+1维特征:
x=[x0,x1,x2,⋯,xn]T
x=[x0,x1,x2,⋯,xn]T
其中 x∈Rn+1x∈Rn+1, x0=1x0=1, y∈{0,1}y∈{0,1}
李航博士在统计学习方法一书中给分类问题做了如下定义:
分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction),称为分类(classification).
在logistic回归详解一(http://blog.youkuaiyun.com/bitcarmanlee/article/details/51154481)中,我们花了一整篇篇幅阐述了为什么要使用logistic函数:
hθ(x)=g(θTx)=11+e−θTx
hθ(x)=g(θTx)=11+e−θTx
其中一个重要的原因,就是要将Hypothesis(NG课程里的说法)的输出映射到0与1之间,既:
0≤hθ(x)≤1
0≤hθ(x)≤1
同样是李航博士统计学习方法一书中,有以下描述:
统计学习方法都是由模型,策略,和算法构成的,即统计学习方法由三要素构成,可以简单表示为:
方法=模型+策略+算法
方法=模型+策略+算法
对于logistic回归来说,模型自然就是logistic回归,策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量