花书第一部分是一些基本概念,但是我觉得这些概念都是比较重要的一些概念。
下面对一些概念进行笔记:
第一部分
线性代数
特征值与特征向量
特征向量的代数含义是:将矩阵乘法转换为数乘操作;
特征向量的几何含义是:特征向量通过方阵A变换只进行伸缩,而保持特征向量的方向不变。特征值表示的是这个特征到底有多重要,类似于权重,而特征向量在几何上就是一个点,从原点到该点的方向表示向量的方向。
特征向量有一个重要的性质:同一特征值的任意多个特征向量的线性组合仍然是A属于同一特征值的特征向量。
一个变换方阵的所有特征向量组成了这个变换矩阵的一组基。所谓基,可以理解为坐标系的轴。我们平常用到的大多是直角坐标系,在线性代数中可以把这个坐标系扭曲、拉伸、旋转,称为基变换。
特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。
在机器学习特征提取中,意思就是最大特征值对应的特征向量方向上包含最多的信息量,如果某几个特征值很小,说明这几个方向信息量很小,可以用来降维,也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据量减小,但有用信息量变化不大,PCA降维就是基于这种思路。
奇异值分解
特征值分解是一个提取矩阵特征很不错的方法,但是它只适用于方阵。而在现实的世界中,我们看到的大部分矩阵都不是方阵。
这里说一下奇异值分解就是把特征值做了延伸,其实它解决的case就是非方阵的情况。
上面提到过了机器学习中,特征值可以理解为特征向量的权值,那么试着推广一下奇异值就是对奇异矩阵的权值。
主成分分析
主成分分析 (Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
概率论
频率学派和贝叶斯学派
花书这部分内容写得比较简陋(应该是翻译的问题)。所以这里补充一下:
频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。
频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。
在blog 中将得比较清楚:
http://blog.youkuaiyun.com/u012116229/article/details/24636001
往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这个和量子力学某些观点不谋而合。
往小处说,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再 normalize一下使其积分到1。因此两者的很多方法都是相通的。
分布
概率分布是指随机变量X小于任何已知实数x的事件可以表示成的函数。用以表述随机变量取值的概率规律。描述不同类型的随机变量有不同的概率分布形式。是概率论的基本概念之一。
上概率课老师一般不会讲为什么要引入概率分布的概念,一切都变得理所当然。我不是数学系的学生,我是学计算机的,当然也不会刨根问底儿。但是做了机器学习才越来越觉得分布概念的重要性。概率其实要讲得是随机事件发生的可能性。所有的教科书都把随机事件的可能性表示为随机变量。用比较糙的话来讲就是随机变量发生是符合一定规律的,就像冥冥之中有上帝指引一样。随机变量的取值更具有一种类型属性,我们可以把这类事件发生总结成为一种分布表现。所以用概率分布来表示随机变量的取值。我们知道随机变量取值表现为两种类型:一、离散型,就是我一个一个取值,所取得值之间有间断;二、连续型,就是连续地取值。离散用加和,连续用积分。其实加和和积分从这个意义上又可以完美地统一起来。就是这么奇妙!