
机器学习
Xafter0
这个作者很懒,什么都没留下…
展开
-
EM算法推导
给定观测样本集\({y_1,\cdots,y_N}\),求带有隐变量模型的最大似然。似然函数$$L(\theta)=logP(Y|\theta)=log\sum_ZP(Y,Z|\theta))=log(P(Y|Z,\theta)P(Z|\theta))$$将似然函数减去上一步的似然函数$$ \begin{align} L(\theta)-L(\theta^{(i)})=& ...原创 2018-07-20 10:47:51 · 228 阅读 · 0 评论 -
泛化误差,偏差方差分解
训练是为了得到泛化性能好的模型,希望模型在未知数据上能够取得好的效果,偏差方差分解是解释模型泛化性能的一种方式,对于测试样本\(x\),使用数据集\(D\)训练的模型\(f\)在\(x\)上的输出记为\(f(x;D)\),\(x\)的真实标签为\(y\),在数据集\(D\)中模型的标签为\(y_D\)。记$$\overline f(x;D) = E_D[f(x;D)]$$偏差偏...原创 2018-09-06 09:41:08 · 2180 阅读 · 1 评论 -
GBDT推导
给定样本集合\(\{(x_i,y_i)|i=1,\cdots,N\}\),对于分类或者回归有不同的损失函数,假设在某个样本\(i\)上的损失函数为$$L(y_i,F(x_i))$$其中F是学习到的决策函数。在GBDT中F是一簇函数的加权和,即$$F=\sum_{i=1}^m \gamma_i f_i$$对于所有的样本,gbdt的损失函数为$$\sum_{i=1}^N L(y...原创 2018-08-30 10:15:50 · 1521 阅读 · 0 评论 -
指数族分布,广义线性模型,线性回归,LR
指数族分布$$p(x;\eta)=b(x)e^{(\eta^TT(x)+\alpha(\eta))}$$广义线性模型1.待遇测变量 \(y\) 在给定 \(x\) 和参数 \(\theta\) 时服从以 \(\eta\) 为参数的指数族分布2.模型的目的是预测给定 \(x\) 情况下 \(y\) 的期望3.\(\eta=\theta^Tx\),若 \(\eta\) 为向量,则 ...原创 2018-09-04 15:46:22 · 442 阅读 · 0 评论 -
Adam和AdamW
Adam可以看作是RMSprob和动量SGD的结合目的在于抑制震荡加速收敛Adam\(while \theta_t 不收敛\)计算损失函数关于\(\theta\)的梯度\(g_{\theta}\)\(t = t + 1\)计算一阶动量项\(s_t=\alpha_1s_{t-1} + (1 - \alpha_1)g_{\theta}\)计算二阶动量项\(v_t=\...原创 2018-08-31 09:52:23 · 5674 阅读 · 1 评论 -
LR和SVM
从目标函数的形式上看,使用线性核的SVM和带L2正则的LR是等价的,考虑LR的目标函数$$J_{LR}=-\frac{1}{m} \sum_{i=1}^{N} y_ilog(\frac{1}{1 + e^{-z_i}}) + (1 - y_i)log(1 - \frac{1}{1 + e^{-z_i}}) + \frac{\lambda}{2m}||w||^2$$SVM的目标函数$...原创 2018-08-30 21:32:12 · 324 阅读 · 0 评论 -
模型融合stacking与blending
1.stacking给定数据集\(D\),首先将数据集划分为训练集\(D_{train}\)和验证集\(D_{valid}\),然后将训练集划分为k份,记为\(D_{train}^1,\cdots,D_{train}^k\)。用其中的k-1份训练一个基模型并对剩余的一份进行预测,重复k次得到整个训练集的预测值(是k个相同模型使用不同训练集得到的预测结果),再换用不同的基模型可以得到训练集的多列...原创 2018-08-17 10:11:28 · 402 阅读 · 0 评论 -
特征选择
概念特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程,是模式识别的关键问题之一。样本中是否含有不相关或冗余信息直接影响着分类器的性能,因此研究有效的特征选择算法至关重要。特征选择的框架首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出...转载 2018-08-17 09:23:21 · 1420 阅读 · 0 评论 -
KKT条件推导
考虑优化问题$$\min_x f(x)$$$$s.t. \begin{align} & f_i(x)\leq 0, i=1,\cdots,m\\ &h_i(x)=0, i=1,\cdots, n\end{align}$$拉格朗日函数$$L(x,\lambda,\mu)=f(x) + \sum_{i=1}^{m}\lambda_if_i(x) + \sum_{i=1}...原创 2018-08-15 19:25:42 · 4514 阅读 · 0 评论 -
FM与FFM
1.FM逻辑回归、线性回归等均没有考虑特征交叉,可以考虑$$y(x)=w_0+\sum_{i=1}^{n}w_ix_i + \sum_{i=1}^{n-1}\sum_{j=i+1}^{n}w_{ij}x_ix_j$$但此处\(w_{ij}\)为稠密矩阵,学习的计算复杂度高而且在特征高度稀疏的时候w得不到有效的学习,因此将w分解为向量的乘积,具体的$$w_{ij}=v_i^Tv_j$...原创 2018-08-15 16:32:06 · 565 阅读 · 0 评论 -
Lightgbm
Lightgbm是GBDT的一种高效实现,在寻找特征最优分裂点,减少样本数目和减少特征数目上都进行了优化。1.最优分裂点使用直方图算法,并不是遍历特征的所有取值,而是对特征取值建立直方图,并且在直方图上寻找最优分裂点2.减少样本GOSS算法样本的梯度可以当做样本的额权重,梯度很小的样本往往已经拟合的很好了,可以在下一次建树的时候忽略梯度小的样本。将样本按照梯度的绝对值进行降序排...原创 2018-08-14 19:25:38 · 706 阅读 · 0 评论 -
HMM推导
隐马尔科夫模型作了两个基本假设(1)齐次马尔可夫性假设:马尔可夫链每个时刻的隐藏状态只与前一个隐藏状态相关(2)观测独立性假设:任意时刻的观测只与当前时刻的状态有关隐马尔可夫模型有3个基本问题:(1)概率计算问题,即给定模型参数和观测序列,计算观测序列出现的概率。(2)学习问题,即给定观测序列,学习模型的参数。(3)预测问题,即给出模型参数和观测序列,求具有最大概率的状态序...原创 2018-07-21 15:51:10 · 498 阅读 · 0 评论 -
XGBoost推导
输入样本集\(\{(x_1,y_1),\cdots ,(x_N,y_N)\}\),对于每个样本,其损失函数为$$L(F_m(x_i),y_i)$$其中\(F_m(x_i)\)表示已经学习到的\(m\)棵树对\(y_i\)的预测。考虑所有样本的损失$$L_m=\sum_{i=1}^N L(F_m(x_i),y_i) + \gamma \left |T\right | + \lambd...原创 2018-07-20 09:25:11 · 229 阅读 · 0 评论 -
PCA理论推导
令 \(X=\left[ \begin{matrix}x_1 & \cdots& x_N\end{matrix}\right]\in R^{D\times N}\)是一个给定的待降维的数据集,由\(X\)中的元素可以张成\(R^D\)中的一个子空间\(S=span \{x_1,\cdots,x_n\}\),在\(S\)中寻找一个\(d\)维子空间 \(U\),假设\(U\) 的...原创 2019-04-17 15:07:38 · 387 阅读 · 0 评论