凸优化
文章平均质量分 91
机器学习的小学生
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Proximal Algorithms--proximal gradient algorithm
4.2 近端梯度法 Proximal gradient method 无约束的优化问题,代价函数可以分成两个部分: minf(x)=g(x)+h(x)min f(x)=g(x)+h(x) 其中gg是凸的,可微的,并且domg=Rn\mathbf {dom} _g =\mathbf {R}^n,ff是闭的,凸的,可能不可微,proxh\mathbf {prox}_h容易计算。近端梯度算法:原创 2016-07-21 19:22:41 · 4955 阅读 · 0 评论 -
http://www.mat.univie.ac.at/~neum/glopt.html
http://www.mat.univie.ac.at/~neum/glopt.html原创 2016-12-06 16:02:46 · 678 阅读 · 0 评论 -
smooth function
%% plot smoothed function and its original functiontimes = 2;mu = 0.5; %精度控制参数:accuracy control parameterstep = 0.05; % 粒度% first part[X,Y] = meshgrid(-mu:step:mu);X1 =reshape(X,[numel(X) 1]);Y1 =原创 2016-12-13 21:29:39 · 1481 阅读 · 0 评论 -
Numerical algorithms for nonsmooth optimization
Nonsmooth black-box optimizationProximal gradient algorithmSmoothing algorithmsOptimal complexity algorithms原创 2016-12-08 11:29:50 · 580 阅读 · 0 评论 -
Efficient Projections onto the ℓ1-Ball for Learning in High Dimensions[2008]
文章给出了求解: 1.投影到单纯形 2.投影到l1l_1ball的算法。 下图只给出了复杂度为O(nlogn)O(n\text{log}n)的算法,关于算法复杂度为O(n)O(n)的算法,请参考文章后面的详细内容。% 测试clearvars;clc;z=1;%v=[4 4]';v=[-0.5 1]';w=proj2_L1ball0(v,z);%真实的结果应该为:% y=x; 与x原创 2016-11-16 19:48:54 · 2269 阅读 · 1 评论 -
函数梯度的检查
%%% 最简单的函数梯度的检测 %%%%% f(x) = 2*(x-1)^2;x0 = 10;grad = 4*(x0-1);epi = 1e-5;f1 = 2*(x0+epi-1)^2;f2 = 2*(x0-epi-1)^2;prox_grad = (f1-f2)/(2*epi);err = abs(grad-prox_grad)/max(abs(grad),abs(prox_g原创 2017-01-05 10:35:49 · 818 阅读 · 0 评论 -
计算梯度的三种方法: 数值法,解析法,反向传播法
计算梯度的三种方法: 数值法,解析法,反向传播法原创 2017-01-13 13:18:28 · 18074 阅读 · 2 评论 -
学习中碰到的一些优化工具包和库
各种优化请参考:http://www.mat.univie.ac.at/~neum/glopt.html1.linear svm这个工具包目前用的比较多。例如面部特征点的回归方法中,学习线性回归的权重,例如:Face Alignment at 3000 FPS中: minWt∑i=1N||△s^ti−WtΦt(Ii,St−1i)||22+λ||Wt||22\min_{W^t} \sum_{i=1}原创 2016-09-17 10:27:14 · 5386 阅读 · 2 评论 -
Examples of using minFunc
摘自:https://www.cs.ubc.ca/~schmidtm/Software/minFunc/examples.html原创 2017-03-03 10:49:02 · 966 阅读 · 0 评论 -
ADMM算法求解一个简单的例子
求解下面的带有等式约束和简单的边框约束的优化问题:minx,y(x−1)2+(y−2)2s.t.0≤x≤3,1≤y≤4,2x+3y=5\begin{equation}\begin{aligned}\min_{x,y} (x-1)^2+(y-2)^2 \\s.t. 0\leq x \leq 3,\\1 \leq y \leq 4, \\2x+3y=5\end{aligned}\end{e原创 2017-02-27 15:39:56 · 17681 阅读 · 8 评论 -
课程
EE364bEE227BT (test) EE236CCSC 576:大数据分析的现代计算方法. 涉及的内容: 1. 大规模线性系统的计算方法. computational methods for large scale linear system 2. 矩阵/张量分解/完备/恢复(推荐系统,图像/视频绘画,视频监控) 3. 一阶优化方法: 无约束的优化方法(梯度放,最优的1阶梯度方法,随原创 2016-07-24 16:55:31 · 648 阅读 · 0 评论 -
需要读的经典书籍和课程
机器学习:1.Gaussian Processes for Machine Learning网址:http://www.gaussianprocess.org/gpml/ 带有code, 即: gpml toolbox2.Bayesian Reasoning and Machine Learning. David Barber网址:http://web4.cs.ucl.ac.uk/staff/D.原创 2017-05-24 11:33:57 · 1619 阅读 · 0 评论 -
动态规划
星型结构的动态规划 树型结构的动态规划 其中,S0,S1,S2,S3,S4S0,S1,S2,S3,S4分别是cen,lel,rer,ml,mrcen, lel,rer,ml,mr,(即中心,左眼眼角,右眼眼角和嘴左角,嘴右脚)是搜索空间。 红色的点和蓝色的点之间的连线称之为:springspring,其外围的虚线边框是该特征点对应的patchpatch.动态规划问题: 注:下面S0−S原创 2016-07-10 11:09:31 · 910 阅读 · 0 评论 -
[卡内基梅隆大学]10-725: Optimization Fall 2012 -Lecture 17: October 23 构造对偶函数
问题1:求解l1,∞l_{1,\infty}范数子问题。即求解在文献2中,有公式(10): minw12||w−v||22+λ^||w||∞问题1\min_{\mathbf w} \frac{1}{2} ||\mathbf w- \mathbf v||_2^2 +\hat{\lambda}||\mathbf w||_{\infty} \qquad 问题1因为二次函数的共轭是仍然是二次函数,l∞l_原创 2016-11-16 16:59:07 · 1202 阅读 · 0 评论 -
CSC 576: Alternating Direction Method for Multipliers (ADMM)
参考文献: 1. Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers [Stephen Boyd 2011] 2.CSC 576: Alternating Direction Method for Multipliers (ADMM) [J翻译 2016-12-03 10:32:39 · 1028 阅读 · 0 评论 -
the subgradient of hingle loss 合页函数的次梯度
合页损失: lh(z,W)=max(0,1−ywTk⋅x)l_h(z,W)=\max(0,1-y\mathbf w_k^T\cdot \mathbf x) 其中z=(x,y,k)z=(\mathbf x,y,k),WW是多任务学习的权重,kk表示样本(x,y)(\mathbf x ,y)所对应的任务。 对于二维的情况,我们很容易画出其函数。而且max\max函数是分段平滑函数构成,因此我们原创 2016-11-20 10:13:09 · 1447 阅读 · 0 评论 -
随机梯度下降求解非平滑优化:收敛结果和最优平均策略。
参考文献:Stochastic Gradient Descent for Non-smooth Optimization: Convergence Results and Optimal Averaging Schemes文章分析了:Individual SGD Iterates的收敛性。Averaging Schemes的收敛性。定义: λ−stronglyconvex\lambda -原创 2016-07-07 20:32:27 · 1820 阅读 · 0 评论 -
Proximal Algorithms--Fixed points
2.3 Fixed points近端操作: proxf(v)=argminx(f(x)+(1/2)||x−v||22)(1.1)\mathbf {prox}_f (v)=arg \min_x \big ( f(x) +(1/2) ||x-v||_2^2 \big ) \qquad (1.1) 当前仅当: x∗=proxf(x∗)x^*=\mathbf {\color{red}{prox}}_f原创 2016-07-19 16:03:27 · 3108 阅读 · 0 评论 -
Proximal Algorithms
Proximal Algorithms:近端算法 proximal operator:近端操作 这里将Proximal Algorithms翻译成近端算法,而不是近似算法。主要是因为,近端操操作其行为上类似在将一个点投影到集合中与该点满足评价函数f(x)f(x)和距离最小的点,有最邻近的端点之意。近端操作又类似于离散下的广义距离变换。1.1定义 令f:Rn→R∪{+∞}f: \mathbf R原创 2016-07-18 16:19:45 · 8127 阅读 · 0 评论 -
Proximal Algorithms--Proximal minimization
4.1 近端最小化 Proximal minization 近端最小化算法(proximal minization algorithm),也称为近端迭代(proximal iteration)或者近端点算法(proximal point algorithm). xk+1:=proxλf(xk)x^{k+1}:=\mathbf {prox}_{\lambda f}(x^k) 其中f:Rn→原创 2016-07-21 11:15:53 · 1823 阅读 · 0 评论 -
Proximal Algorithms--Moreau-Yosida regularization
3.1 Moreau-Yosia regulariztion莫罗-吉田正则化。原创 2016-07-19 21:24:22 · 4915 阅读 · 0 评论 -
牛顿法与拟牛顿法,DFP法,BFGS法,L-BFGS法
转载来自无色光的博客园:http://www.cnblogs.com/wuseguang/p/4088817.html牛顿法考虑如下无约束极小化问题: minxf(x)\min_{x} f(x) 其中x∈RNx\in R^N,并且假设f(x)f(x)为凸函数,二阶可微。当前点记为xkx_k,最优点记为x∗x^*。 梯度下降法用的是一阶偏导,牛顿法用二阶偏导。以标量为例,在当前点进行泰勒二阶展开转载 2016-09-19 21:18:54 · 1825 阅读 · 0 评论 -
共轭函数
共轭函数共轭函数的定义:设函数f:Rn→Rf:R^n \rightarrow R,定义函数f∗:Rn→Rf^*:R^n \rightarrow R为: f∗(y)=supx∈domf(yTx−f(x))f^*(y)=\sup_{x \in \mathbf{dom}f}(y^Tx-f(x)) 此函数称为函数ff的共轭函数。即函数yxyx和函数f(x)f(x)之间差值的上确界。 如下图,两条虚线平原创 2016-11-15 22:10:23 · 17822 阅读 · 4 评论 -
松弛条件
基本的优化问题: minimizesubject tof0(x)fi(x)≤0,i=1,...,mhi(x)=0,i=1,...,p\begin{equation}\begin{aligned}\text{minimize} \quad &f_0(x) \\\text{subject to} \quad& f_i(x) \leq 0, i=1,...,m\\&h_i(x)=0,i=1,原创 2016-11-16 21:31:05 · 4210 阅读 · 2 评论 -
参数的更新
参数的更新有许多方法;1.Vanilla update 最简单的更新形式。假定xx是参数矢量,dxdx是梯度。更新形式为: # Vanilla update x+=-leaning_rate*dx其中learning_rate是学习率。2Mumenturn update 在深度网络中,通常能够得到更好的收敛速率。这种更新方法来源于优化问题的物理学上的观点。特别的,损失函数可以解释为山原创 2016-11-14 16:29:11 · 1182 阅读 · 0 评论 -
加速梯度下降法
Nesterov’s Accelerated Gradient Descent一般的梯度下降算法的收敛速率为 o(1/t)o(1/t),tt表示迭代的次数。但是人们已经证明了随着迭代次数tt的增加。收敛速率可以到达o(1/t2)o(1/t^2).1.简介: 加速梯度算法(AGD)是梯度算法(GD)的一个改进的版本。Nesterov 在1983年首次提出。人们已经证明AGD算法是所有基于梯度算法原创 2016-11-14 13:12:15 · 15946 阅读 · 0 评论 -
gradient descend/accelerated gradient descend/linearSVM/libSVM
% four methods:% gradient descend method% accelerated gradient method% linearSVM% libSVMclear;clc;close all;%% produce two class datamu = [原创 2016-12-01 22:07:08 · 709 阅读 · 0 评论 -
CSC 576: Gradient Descent Algorithms
1.参考文献:CSC 576: Gradient Descent Algorithms翻译 2016-11-15 16:10:56 · 892 阅读 · 0 评论 -
A Cookbook for Machine Learning: Vol 1
通常的情况是:你拥有某个模型参数θθ\theta。你试图优化某个客观标准,但是采用下面列的方式,优化问题不可行或者很难。如果你可以的话,那么你可以应用相应的转换到你的问题上。如果现在这个问题你可以有效的优化,那么很好。如果不能,你可以递归的应用这些转换直到它可以(优化)。对于Vol1,我们首先陈述下面的问题转换:变分边界(variational bound) 对抗博弈(Adversari...转载 2017-11-23 09:46:17 · 558 阅读 · 0 评论
分享