Introduction
1.1 Example of Curve Fitting
1.常见术语的定义:
1.generalization: The ability to categorize correctly new examples that differ from those used for training is called generalization;
2.classification: Task in which the aim is to assign each input vector to one of a finite number of discrete categories is called classification;
3.regression: Task in which the desired output consists of one or more continuous variables is called regression;
4.unsupervised learning: 无监督学习主要分成3类:
- clustering: discover groups of similar examples within the data;
- density estimation: determine the distribution of data within the input space;
- visualization: project the data from a high-dimensional space to two or three dimensions;
5.典型的多项式拟合问题的代价函数如下所示:w的F范数只能抑制w的元素的值的幅度,但是并不能使w变得稀疏。要使w变得稀疏,应该使用零范数。
6.在5中描述的问题里面,在原本的最小二乘估计的基础上加上了F范数作为正则项,这种参数估计的方法又叫ridge regression,在神经网络当中称为weight decay,在信号处理中称为Tikhonov正则化(样本数小于参数个数,解病态方程,为了保证最小二乘估计的参数的数值稳定性,通过正则项进行对角线加载)。
2.常见结论
1.数据集越大,我们就能用越复杂的模型拟合数据;
2.下图表示ridge regression当中正则项权重λ对训练集和测试集上误差的影响
1.2Probability theory
1.概率论当中的两个基本的准则:sum rule和product rule。sum rule:边缘概率等于联合概率求和(sum out/marginalization/variable elimination),product rule:联合概率等于先验乘上条件概率。
2.贝叶斯法则:
3.连续变量的概率密度函数p(x)与累计概率分布函数P(x)如下图所示

4.期望:随机函数f(x),x服从
5.方差:随机函数f(x)的方差定义如下:
两个随机向量x和
6.频率学派和贝叶斯学派观点的比较:在curve fitting例子当中,假设拟合曲线的参数为w, 观测的数据点为
也就是后验正比于先验乘似然(posterior∝likelihood×prior)
在频率学派和贝叶斯学派的观点当中,似然函数p(D|w)都扮演着重要的角色,但是使用的方法不同。频率学派认为,参数w是固定的,它的值是通过估计可能的观测数据
7.高斯变量概率分布,单元以及多元:
8.高斯分布的参数估计:单变量高斯分布概率密度函数用均值
最小化上式,可以得到参数的极大似然估计值为:
值得一提的上,上述对均值μ的估计是无偏的,但是对于方差的估计是有偏的,即:

接下来我们将会讲到,极大似然估计中的偏差是导致over-fitting的根本原因。
9.重温curve fitting:在前面讲到的利用多项式函数进行曲线拟合的问题当中,假设给定的数据点集为{x1,...,xN},对应的真值为{t1,...,tN},我们的做法是采用最小二乘法来最小化多项式函数y(xi,w)和ti之间的平方误差。现在从概率的角度来分析,假设我们的预测量y(x.w)和真实的t之间的误差服从高斯分布,也就是说
其中β表示方差的倒数。则对实际观测数据集做极大似然估计得到log似然函数为:下式对参数w求偏导,可以知道,当我们令估计误差服从高斯分布时,极大似然估计就等价于普通最小二乘估计。

对于上式,我们也可以对参数

根据上述概率模型进行预测的时候,对于每一个新的数据点x,上述概率模型得到的都是关于预测值
现在考虑对参数w的分布加上一个先验,即假设参数
采用最大后验概率的方法(MAP),可以得到MAP等价于下式:

可见采用MAP的估计方法就等价于在普通最小二乘的基础上加上了正则项,变成ridge regression。
1.3 Model Selection
1.cross-validation: 对于数据量比较小的情况下,交叉验证的做法是将数据分成S份,如下图所示:
对于每一个run,在S-1份数据上进行训练,在最后一份数据上验证,得到一个模型。最后测试的时候将S个模型的得分进行综合。
1.5 Decision Theory
1.假定对于一个输入的向量
2.medical diagnosis例子:给定一张输入的X光图像x,预测病人是否患有癌症
3.Minimizing the misclassification rate:
对于二分类问题:分类错误的概率为:
其中Decision region: Ri={x:pred(x)=Ci},上述表达式的意思为分类错误的概率等于在预测为C1的区域,但是标签为C2的概率加上在预测为C2的区域,但是标签为C1的概率。要使上述分类错误的概率最小,对于每一个输入x,如果
对于多分类问题,为了方便,我们可以求使分类正确的概率尽可能大,即
要使上述积分项最大,应该满足对于找到使P(x,Ck)最大的k,将x放到decision region
4.reject option
从第3节我们知道对于一个多分类的问题,要使分类的准确率最高,应该对于每一个样本x选择使得后验概率
5.Inference and decision
到目前为止我们处理分类问题主要有三种方法,按照从困难到简单为
1)估计输入x和输出
2)估计输入x到后验概率
3)直接估计输入x到输出类别
6.loss function for regression
前面的decision theory,我们讨论的对象都是分类的问题,现在我们讨论回归的问题。
假设输入的变量为
其中p(x,t)表示输入x和真值
我们的目标是选择y(x)使得目标函数E[L]最小,这里涉及到泛函以及变分法,即求目标函数E[L]对函数y(x)的导数。
常见的变分法公式如下所示:

应用得到导数为:

令导数等于0,得到
也就是说,要使均方误差最小,要满足y(x)=E[t|x], 如下图所示:

当然有的时候square loss并不是最好的,一种简单的均方误差的一般形式即为Minkowski loss,如下所示:
1.6 Information Theory
参考课本《信息论与编码》
1.离散随机事件的自信息和互信息
随机事件xk的自信息定义为I(xk)=−log2q(xk),其中q(xk)表示事件发生的概率。显然,若某个事件发生的概率越小,则该事件实际发生带来的信息量越大。如果某个事件发生的概率为1,则该事件发生带来的信息量为0.
随机事件xk和yk之间的互信息定义为
上式的意义为,两个随机事件xk和yk之间的信息量等于事件xk单独发生带来的信息量减去在已知yk发生的情况下xk发生还能带来的信息量。互信息表示事件yk所能提供关于xk的信息量。互信息具有对称性,即I(xk;yk)=I(yk;xk)。
互信息可正可负,如果yk的发生有利于xk的验证,则互信息为正,否则为负,若事件xk和yk互不相关,则互信息为0.
2.离散随机变量的平均自信息–熵
离散随机变量X的熵的定义为平均自信息,即
显然当随机变量的概率分布为均匀分布时,随机变量的熵越大。当概率分布呈现尖峰状时,熵很小。熵描述了随机变量的不确定性。
条件熵:条件熵H(X|Y)描述了在已知随机变量Y的分布的情况下,变量
当随机变量X和
联合熵:联合熵H(X;Y)=E[I(x;y)]=−∑x∑yp(x,y)log2p(x,y),即事件的平均联合自信息
联合熵的满足H(X;Y)=H(X)+H(Y|X),即X,Y的联合不确定性等于X的不确定性加上已知
3.离散随机变量的平均互信息
根据随机事件的互信息的定义,可以很容易推倒出随机变量之间的互信息的定义为:
互信息的性质:
1)非负性:I(X;Y)⩾0,虽然事件的互信息可正可负,但是随机变量的互信息是非负的
2)对称性:I(X;Y)=I(Y;X)
3)I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(X,Y)
4)I(X;Y)⩽H(X) & I(X;Y)⩽H(Y)
4.离散概率分布的散度 –相对熵
散度定义为在同一个字符表上(即随机变量的取值范围相同)的两个概率分布之间的差异,定义为:
只有当p(x)=q(x)时,散度为0,上述散度的定义也叫做相对熵,交叉熵以及KL距离。上述散度的定义是非对称的。
5.连续随机变量的互信息
两个连续随机变量X和
6.连续随机变量的熵 –微分熵
离散随机变量下定义的熵不能直接推广到连续随机变量的情况。因为按照熵的定义,连续随机变量的取值范围是无穷的,熵也是无穷大的(即使是一小段区间,也无法确定变量具体可能的取值)。
对于连续变量,微分熵(HC(X),有时也表示为h(X))的定义如下:
微分熵并不代表事件出现的不确定性,但微分熵仍然具备很多和离散情况下熵的性质
联合微分熵
条件微分熵
连续随机变量互信息
微分熵的极大化
1)峰值受限:当微分熵的取值范围受限于(−M,M),即∫M−Mp(x)dx=1,这时微分熵满足HC(X)⩽ln2M,当均匀分布时得到最大值
2)平均功率受限:在方差σ2一定的条件下,当X服从高斯分布时,微分熵最大,即