
Machine Math
guang_mang
故事的开头总是这样,适逢其会,猝不及防。故事的结局总是这样,花开两朵,天各一方
展开
-
信息熵的理解
信息熵的由来:信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德原创 2017-03-10 21:01:48 · 2286 阅读 · 0 评论 -
正规方程推导过程
那啥,之前笔记里这部分是略过的。这里整理一下吧。有兴趣的可以对照看看和你推倒的过程一样不。我们先回顾一下,我们定义观测结果y和预测结果y’之间的差别为Rss:设若参数的矩阵为,则那么按照我们的定义,这个Rss的意思是y和y’之间的差,那么当Rss无限趋近于0的时候,则y≈y’,即我们求得的预测结果就等于实际结果。于是,令Rss等于某一极小值,则对参数求导,得:展开,得进而就可以得到于是我们就得到正规转载 2017-09-15 19:31:00 · 8853 阅读 · 5 评论 -
最小二乘法(python)
最小二乘法Least Square Method,做为分类回归算法的基础,有着悠久的历史(由马里·勒让德于1806年提出)。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。那什么是最小二乘法呢?别着急,我们先从几个转载 2017-09-12 20:36:05 · 1552 阅读 · 0 评论 -
奇异值分解的推理及意义
PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。英文原文:We recommend a singular转载 2017-08-17 10:02:34 · 334 阅读 · 0 评论 -
漫谈协方差矩阵
一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但转载 2017-08-17 09:58:37 · 268 阅读 · 0 评论 -
神经网络中的sigmoid函数
1、weights、bias 参数学习我们希望有一种学习算法,它能够自动地调整网络中的权重因子和偏置。 但是,我们怎样才能设计出这样的算法神经网络?可以通过学习来解决一些问题。假如,网络的输入是从扫描的原始像素数据,亦或是手写数字的图像。我们希望通过网络可以自动地学习权重和偏差,使输出从网络正确分类的数字。假设我们对网络上的一些权重(或偏置)做一些小的调整,并且希望网络上权重因子和偏差也仅有较小的转载 2017-08-08 16:54:41 · 8122 阅读 · 0 评论 -
神经网络算法
对神经网络算法的理解建立仿照人脑的机制,能够像人脑一样对于事情进行思考,其中最重要最频繁使用的就是分类.1、简单得二分类首先会有一个附加节点默认为1,所以这个输入就是x,y,1,三条线表示通过不同的权重得到z,所以但是z的值为,所以采用sigmoid函数进行范围控制。2、多分类问题(1)进行逻辑与运算如下图(2)进行逻辑或运算(3)逻原创 2017-08-08 16:30:44 · 386 阅读 · 0 评论 -
梯度下降算法
回归(regression)、梯度下降(gradient descent)本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学,最近时间比转载 2017-08-01 14:44:53 · 206 阅读 · 0 评论 -
正规方程
1. 正规方程前面几篇文章里面我们介绍了求解线性回归模型第一个算法 梯度下降算法,梯度下降算法最核心的是找到一个学习速率α,通过不断的迭代最终找到θ0 … θn, 使得J(θ)值最小。今天我们要介绍一个解决线性回归模型新的算法 正规方程 对于函数f(x) = ax^2 + bx + c 而言,要求其最小值,是对其求导数并且设置导数值为0.我们知道,多维特征变量的线性回归模型中,代价函数表达式,如下图转载 2017-08-04 09:49:15 · 523 阅读 · 0 评论 -
特征值和特征向量
介绍特征向量和特征值在计算机视觉和机器学习中有许多重要的应用。众所周知的例子是PCA(主成分分析)进行降维或人脸识别是特征脸。特征向量和特征值的一个有趣应用在我的另一篇有关误差椭圆的博文中提到。此外,特征值分解形成协方差矩阵几何解释的基础。在这篇文章中,我将简单的介绍这个数学概念,并且展示如何手动获取二维方形矩阵的特征值分解。特征向量是一个向量,当在它上面应用线性变换时其方向保持不变。考虑下面的图像转载 2017-12-05 20:52:41 · 951 阅读 · 0 评论