一. 向量与矩阵
NLP: 词向量,频率向量
图像:矩阵表示,图像的SVD压缩
金融数据:时间序列问题,用向量表示
网页排名问题:
- 英特网可以表示为连接图
- 更多访问更多排名
S:转移矩阵,每个元素表示从当前网页跳到恰网页的概率
网页排名:特征向量问题
πTS=πT\pi ^{T}S = \pi ^{T}πTS=πT
π>0\pi >0π>0
∥π∥=1\left \|\pi \right \|=1∥π∥=1
解法:
1.随机选取x(0)x(0)x(0)
2.迭代直到收敛:x(k+1)T:=x(k)TSx(k+1)^{T}:=x(k)^{T}Sx(k+1)T:=x(k)TS
3.π=x(t→⋈)\pi =x(t\rightarrow \bowtie )π=x(t→⋈)
二. 向量与向量空间
向量:从几何角度理解;
线性组合
线性无关
线性生成空间
线性空间的基:基的选择与实际问题有关系
空间维度:即基的数量
向量的范数:是具有“长度”概念的函数,是向量空间到实数的映射
- 正定性(非负性,正性)
- 齐次性
- 三角不等式
向量lpl_{p}lp范数:∥x∥p=(∑i=1N∣xi∣p)1p\left \| x \right \|_{p} = (\sum _{i=1}^{N}\left | x_{i} \right |^{p})^{\frac{1}{p}}∥x∥p=(∑i=1N∣xi∣p)p1
- l0l_{0}l0范数:向量中非零元素的个数
:取极限求 - l1l_{1}l1范数:向量元素绝对值之和
:曼哈顿距离
:Laplace分布选用l1l_{1}l1范数做损失函数 - l2l_{2}l2范数:欧几里德距离or欧几里德范数(通常说的是距离或模)
:高斯分布选用l2l_{2}l2范数做损失函数 - l∞l_{\infty }l∞范数:所有向量元素绝对值中的最大值
- l−∞l_{-\infty}l−∞范数:所有向量元素绝对值中的最小值
交叉熵也是一种范数
不同范数对应的稀疏度不同
- l0l_{0}l0范数,l1l_{1}l1范数:稀疏
向量内积:投影
- 内积与范数
- 标准内积
- 向量间的夹角
- 向量正交,平行
三. 矩阵论初步
1. 矩阵的理解:线性映射
- 矩阵:向量到向量的线性映射
:线性变换,自身到自身的空间的 - 矩阵 v.s 函数
:矩阵的逆,秩,特征值,特征向量等
:反函数,线性展开
2. 行列式的值(方阵):线性变换的体积(面积)变化率
- 定义
- 计算性质
3. 矩阵的逆
- 定义
- 计算性质
4. 矩阵的秩
- 定义:线性映射A生成域的维度为A的秩
- 性质
:矩阵的秩等于其非零特征值的个数
:矩阵的列秩和行秩是相等的等于矩阵A得秩=生成域的维度
5. 矩阵的特征值和特征向量
- 定义
- 性质
:特征向量构成正交基组
:对比函数的傅立叶级数(其他正交级数)
6. 矩阵范数
- 定义:矩阵所在线性空间到实数的映射
:正定性
:齐次性
:三角不等式 - 诱导范数:
:1范数:列向量绝对值之和最大值
:2范数:λ\sqrt{\lambda }λ,λ\lambdaλ为协方差矩阵AATAA^{T}AAT的最大特征值,即谱范数
:∞\infty∞范数:行向量绝对值之和最大值
:F范数:tr(AAT)\sqrt{tr(AA^{T})}tr(AAT) - 推荐系统的正则化
7. 矩阵的迹
- 定义:矩阵所有对角元的和
- 迹是矩阵特征值的总和(特征多项式韦达定理)
- 几何意义:exp(tr(A))exp(tr(A))exp(tr(A))是线性变换exp(A)exp(A)exp(A)的体积变化率
矩阵论初步总结:
- 向量可以理解为线性空间的元素
- 矩阵可以理解为线性映射
- 矩阵的逆(线性映射的反函数)
- 矩阵的行列式(线性变换前后体积比)
- 矩阵的秩(线性映射生成域的维度)
- 矩阵的特征向量(线性映射正交分解的正交基)
- 矩阵的特征值(线性映射正交分解的系数)
四. 线性回归问题:最小二乘问题
线性方程组 等价向量方程 等价矩阵方程
一般来讲,样本个数大于自参数个数。所以方程个数大于这个方程的未知数个数,方程通常是没有解的
如果样本存在误差,如何寻找近似解
- 角度1:线性空间投影近似
- 角度2:最小二乘
:极小化误差项
:l2l_{2}l2范数极小化,
:梯度法求极值
- 角度3:极大似然估计
- 角度4:梯度下降法