
概念
文章平均质量分 90
Yemiekai
418504286@qq.com
展开
-
共轭梯度法(Conjugate Gradients)(1)
最近在看ATOM,作者在线训练了一个分类器,用的方法是高斯牛顿法和共轭梯度法。看不懂,于是恶补了一波。学习这些东西并不难,只是难找到学习资料。简单地搜索了一下,许多文章都是一堆公式,这谁看得懂啊。后来找到一篇《An Introduction to the Conjugate Gradient Method Without the Agonizing Pain》,解惑了。为什么中文没有这么良心的资料呢?英文看着费劲,于是翻译过来搬到自己的博客,以便回顾。由于原文比较长,一共 666666 页的PDF,所原创 2022-04-10 16:13:49 · 17693 阅读 · 17 评论 -
牛顿法,高斯-牛顿法
牛顿法(Newton’s method)假如已知函数 f(x)f(x)f(x),想要求 f(x)=0f(x)=0f(x)=0 的解(或者叫根)。牛顿法(Newton’s method)大致的思想是:(1)选一个初始位置 x0x_0x0(这个位置最好是在根的附近);(2)在这个位置上找一个 f(x)f(x)f(x) 的近似函数(通常用泰勒展开);(3)令近似函数为 000 ,求解;(4)以这个解为新的位置 x1x_1x1;(5)重复上述迭代,到第 nnn 次迭代得到 xnx_nxn,当 ∣原创 2022-04-05 13:14:11 · 10203 阅读 · 3 评论 -
各种梯度下降
Gradient descent (梯度下降)原创 2022-03-06 16:40:46 · 1267 阅读 · 0 评论 -
主成分分析(Principal Component Analysis,PCA)
降维(Dimensionality Reduction)问题1. 压缩数据降维可以压缩数据,使数据占用更少的计算机内存和硬盘空间,或者是给算法提速。举一个例子,假如你有一组数据,用 2 个特征来描述它:这 2 个特征都表示长度,存在冗余,完全可以只用其中一个。而且从数据分布来看,似乎都在一条直线上。或者我们再创建一个向量来描述它,这里用向量 z\boldsymbol{z}z:通过某种关系把特征 x1x_1x1 和特征 x2x_2x2 融合成一个新的特征 zzz,把 zzz 单独拿出来:原创 2021-08-15 23:18:45 · 520 阅读 · 0 评论 -
K-Means 算法
聚类(Clustering)问题在 无监督学习(Unsupervised Learning) 中,我们的数据没有附带任何标签。假如我们有一系列数据,它是二维的。这一系列数据只有特征 x=[x1, x2]\boldsymbol{x}=[x_1,\; x_2]x=[x1,x2],却没有标签 yyy。如下图所示:我们要把这组数据输入到一个算法中,找到一种结构,把图中的数据分成几簇(cluster)。聚类算法可以帮你做这件事情。K-MeansK-Means 算法是一种最常用的聚类算法。给算原创 2021-08-13 19:59:19 · 540 阅读 · 0 评论 -
支持向量机(Support Vector Machine,SVM)简单介绍
1. SVM 的优化目标前面讲了逻辑回归,SVM 和逻辑回归是很像的,我们试着从逻辑回归过渡到 SVM。 (图1) 如 (图1) 所示,在逻辑回归中,输入样本特征为 x\boldsymbol{x}x,模型参数为 θ\bm{\theta}θ。当样本标签为 y=1y=1y=1 时,我们希望假设函数输出 hθ(x)≈1h_{\bm{\theta}}(\boldsymbol{x})\approx1hθ(x)≈1,也就是说希望 θTx\bm{\theta}^T\boldsymbol{x}θTx 远大原创 2021-08-10 21:30:49 · 895 阅读 · 0 评论 -
正则化(Regularization),权重衰减(Weight decay)
L2 正则化是怎么减轻过拟合的,权重衰减 (weight decay) 是什么意思。原创 2021-08-01 22:07:31 · 781 阅读 · 1 评论 -
线性回归(Linear Regression)和逻辑回归(Logistic Regression)
1 线性回归(Linear Regression)1.1 建立问题举个例子,你有这样一组数据:波特兰市的城市住房价格的数据,不同尺寸的房子对应不同的售价。现在你有个朋友想要卖房子,他的房子是1250平方英尺,大概能卖多少钱?我们可以根据这组数据,建立一个模型,然后用这组数据集去拟合模型。拟合完毕后,输入1250,它就会告诉你朋友能卖多少钱。看起来这组数据似乎分布在一条直线附近:好,只要找到这条直线的方程,你就能根据面积来预测房价了。(在这个例子里,直线方程就是我们要拟合的模型)如何找到直线原创 2021-07-25 18:01:28 · 10979 阅读 · 7 评论 -
用余弦距离表示向量之间的相似度
很多深度学习的应用里用余弦距离来表示特征向量之间的相似度。这怎么弄呢?首先人为制造一个定义:两个向量的夹角越小,则两个向量越相似。夹角可以通过 cosin\text{cosin}cosin 函数来算:cos(θ)=a⃗⋅b⃗∣a⃗∣∣b⃗∣\cos(\theta) =\frac{ \vec{a} \cdot \vec{b} } {|\vec{a}| |\vec{b}|}cos(θ)=∣a∣∣b∣a⋅b先对 a⃗\vec{a}a 和 b⃗\vec{b}b 归一化之后再算也是一样的。设 a⃗原创 2021-07-10 18:59:18 · 767 阅读 · 0 评论 -
极大似然估计的意思
极大似然估计(Maximum Likelihood Estimate,MLE)这个名字就很奇怪,又拗口,第一次接触时一直不懂到底什么意思。先不讲它的原理,直接先举个例子看看:假设有个篮子,里面装了2种球:红球和白球。问:随便抽一个球,抽到红球的概率是多少?怎么办?现在假设抽到红球的概率是 ppp,则抽到白球的概率是 1−p1-p1−p。ppp 就是我们要的答案。为了得到 ppp 的值,有一个机灵的小伙子做了一个实验:他抽了10次球,每次抽完都放回去。结果是10次里面有7次是红球,有3次是原创 2021-05-05 17:46:36 · 1155 阅读 · 2 评论 -
目标检测中精确率,召回率,准确率的意思
精确率 召回率 准确率原创 2020-09-01 10:53:14 · 7369 阅读 · 0 评论