
数学与算法
saltriver
You're On Your Own.
展开
-
梯度下降算法
梯度下降法(gradient descent)是一种最优化算法,通常也称为最速下降法,在机器学习中属于最基础的优化算法。谁发明的没查到,有知道的同学可以告诉我。 在机器学习中要用到梯度下降法,至少也是多个变量以上的问题。但为了理解方便,以最简单的一元函数来做说明。梯度,即导数,对一元函数来说,某点处的导数就是该点处的切线斜率。看一个示例,凸函数在区间[-12,12]之间的图像如下图所示:原创 2016-08-28 20:56:13 · 4807 阅读 · 4 评论 -
指数分布族
从标题上看,是“指数分布族(exponential family)”,不是“指数分布(exponential distribution)”,这是两个不同的概念,不要弄混了。指数分布族在上世纪30年代中期被提出,在概率论和统计学中,它是一些有着特殊形式的概率分布的集合,包括许多常用的分布,如正态分布、指数分布、伯努利分布、泊松分布、gamma分布、beta分布等等。指数分布族为很多重要而常用的概率分原创 2017-02-14 20:35:05 · 27870 阅读 · 7 评论 -
遗传算法实例-求解函数极值
前面在《遗传算法通识》中介绍了基本原理,这里结合实例,看看遗传算法是怎样解决实际问题的。有一个函数: f(x)=x+10sin5x+7cos4xf(x) = x + 10\sin 5x + 7\cos 4x求其在区间[-10,10]之间的最大值。下面是该函数的图像: 在本例中,我们可以把x作为个体的染色体,函数值f(x)作为其适应度值,适应度越大,个体越优秀,最大的适应度就是我们要求的最大值。原创 2017-03-19 09:42:48 · 21726 阅读 · 4 评论 -
粒子群算法通识
粒子群算法(Particle swarm optimization,PSO)是模拟群体智能所建立起来的一种优化算法,主要用于解决最优化问题(optimization problems)。1995年由 Eberhart和Kennedy 提出,是基于对鸟群觅食行为的研究和模拟而来的。假设一群鸟在觅食,在觅食范围内,只在一个地方有食物,所有鸟儿都看不到食物(即不知道食物的具体位置。当然不知道了,知道了就不原创 2017-03-19 09:59:04 · 4910 阅读 · 3 评论 -
粒子群算法实例-求解函数极值
前面介绍了《粒子群算法》的基本原理,这里结合实例,看看粒子群算法是怎样解决实际问题的。采用过的函数和《遗传算法实例》中的一样: f(x)=x+10sin5x+7cos4xf(x) = x + 10\sin 5x + 7\cos 4x求其在区间[-10,10]之间的最大值。下面是该函数的图像: 在本例中,我们可以把x作为个体的染色体,函数值f(x)作为其适应度值,适应度越大,个体越优秀,最大的原创 2017-03-19 10:05:14 · 17670 阅读 · 5 评论 -
Sigmoid函数
Sigmoid函数是一个有着优美S形曲线的数学函数,在逻辑回归、人工神经网络中有着广泛的应用。原创 2017-02-26 22:42:57 · 128746 阅读 · 6 评论 -
遗传算法通识
遗传算法(Genetic Algorithms ,GA)来源于自然界自然选择和遗传进化的思想,主要用于解决最优化问题(optimization problems)。遗传算法最早在20世纪70年代由John Holland提出。但实际上,我更认为其发明者是达尔文。遗传算法本质上是达尔文“优胜劣汰,适者生存”的进化论思想在计算机中的映射。一、基本概念与进化论相似,遗传算法有几个核心概念。知道进化论或学过原创 2017-02-26 23:32:30 · 3298 阅读 · 0 评论 -
统计学---总体与样本
我们经常在新闻中看到某国总统竟选,某某竞选人支持率是39%,这个支持率是怎么算出来的呢?再比如,南极帝企鹅的平均身高是1.05米,这个又是怎么得来的呢?最直接的想法是调查下全国每个选民,询问每个选民是否支持该竞选人,把支持的人数除以选民总数,就是支持率。南极帝企鹅就是测量生活在南极洲的每一个帝企鹅的身高,求其平均数就是平均身高。这样得出的数据结果当然非常精确,但是大家一眼就能看出来,这不现实。不管是原创 2017-07-31 19:01:48 · 5331 阅读 · 0 评论 -
统计学---掌握数据的整体状态
我们日常工作生活中会获得各种数据,我们希望了解这些数据所代表的整体状态,从而可以用来描述、比较和评价。例如一个公司每个人的收入,一个公司保龄球对抗赛的分组成绩,这些获得的数据都是数值型数据。我们假设公司有3个部门,每个部门有6个人,其保龄球对抗赛的得分情况如下: A部门 B部门 C部门 86 84 229 73 71 77 124 103 59 11原创 2017-08-29 22:56:19 · 2050 阅读 · 0 评论 -
统计学---数据的标准化
北京2017年中考科目有6门,其分值分别是语文120,数学120,外语120,物理100,化学80,体育40,总分580分。那么问题来了,数学考了100分就一定比物理考了90分强吗?语文100分与外语100分的含金量是一样的吗?我们假设拿到了10位同学的英语和语文成绩,如下表所示 序号 英语 语文 1 109 85 2 108 108 3 88 95原创 2017-08-31 19:55:54 · 18501 阅读 · 1 评论 -
指数分布的期望和方差推导
从前期的文章《泊松分布》中,我们知道泊松分布的分布律是:P(X(t)=k)=(λt)ke−λtk!P(X(t)=k)=\frac{(\lambda t)^{k}e^{-\lambda t}}{k!} λ是单元时间内事件发生的次数。如果时间间隔t内发生的次数为0,则: P(X>t)=(λt)0e−λt0!=e−λtP(X>t)=\frac{(\lambda t)^{0}e^{-\l原创 2017-01-02 22:13:30 · 230407 阅读 · 9 评论 -
极大似然估计
现实情况中我们可能会遇到这样的一些例子,需要得到一所高校有车学生的分布情况(假定符合参数为p的伯努利分布),某地区成年男性的身高分布情况(假定符合参数为u1,σ1的正态分布),南极洲成年帝企鹅的体重分布(假定符合参数为u2,σ2的正态分布)等等。 由于时间和经费的限制,不可能进行全面统计,我们只能通过一定的观察,得到一系列的观察值,在上述假定概率分布模型上,现在需要求出是哪个具体的概率分布生成原创 2016-11-27 13:21:56 · 8031 阅读 · 10 评论 -
二项分布均值和方差的简单推导
前一篇文章《二项分布》中说过,伯努利分布(也称为两点分布或0-1分布)是二项分布在n=1时的特例。我们先看伯努利分布的均值和方差的推导。原创 2016-09-20 21:33:50 · 118574 阅读 · 8 评论 -
二项分布
说起二项分布(binomial distribution),不得不提的前提是伯努利试验(Bernoulli experiment),也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。 伯努利试验的特点是:(1)每次试验的事件只有两种结果:事件发生或者不发生;(2)每次试验的事件发生的概率是相同的;(3)每次试验的事件相互之间独立。举个实例原创 2016-09-16 21:13:13 · 40404 阅读 · 1 评论 -
求约束条件下极值的拉格朗日乘子法
学过中学数学的都知道,对于无约束条件的函数求极值,主要利用导数求解法。例如求解函数f(x,y)=x3-4x2+2xy-y2+1的极值。步骤如下:(1)求出f(x,y)的一阶偏导函数f’x(x,y),f’y(x,y)。f’x(x,y) = 3x2-8x+2yf’y(x,y) = 2x-2y(2)令f’x(x,y)=0,f’y(x,y)=0,解方程组。3x2-8x+2y = 0原创 2016-10-23 13:29:01 · 45162 阅读 · 5 评论 -
泊松分布
日常生活中,我们也会遇到大量这样的事情:在某个时间段内发生频率相对稳定,但在时间段内随时都有可能发生的事情。原创 2016-10-01 17:45:39 · 16389 阅读 · 2 评论 -
蒙特卡洛方法到底有什么用
蒙特卡洛方法(Monte Carlo method,也有翻译成“蒙特卡罗方法”)是以概率和统计的理论、方法为基础的一种数值计算方法,将所求解的问题同一定的概率模型相联系,用计算机实现统计模拟或抽样,以获得问题的近似解,故又称随机抽样法或统计试验法。上述就是蒙特卡洛方法的基本概念,比较抽象,下面结合实际工作中的理解,谈一谈对蒙特卡洛方法的一些认识。(1)首先,蒙特卡洛不是个人名,而是个地名,说明该方原创 2016-08-12 20:07:40 · 74963 阅读 · 19 评论 -
泊松分布的期望和方差推导
泊松分布是一个离散型随机变量分布,其分布律是:P(X=k)=λke−λk!P(X=k)=\frac{\lambda ^{k}e^{-\lambda }}{k!} 根据离散型随机变量分布的期望定义,泊松分布的期望: E(X)=∑k=0∞k⋅λke−λk!E(X)=\sum_{k=0}^{\infty }k\cdot \frac{\lambda ^{k}e^{-\lambda原创 2016-10-30 00:39:33 · 359856 阅读 · 25 评论 -
用于精准判断的贝叶斯定理
说起贝叶斯定理,不得不说条件概率,所谓“条件概率”(Conditional probability),指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。条件概率计算公式为P(A|B) = P(AB)/P(B)。条件概率公式是一个定义公式,或者说是公理化的,不好证明和推导。只能通过逻辑来理解了,AB都发生的概率可以理解成B发生的概率乘以B发生的情况下A发生的概率,也即P(AB)=P原创 2016-10-20 20:33:57 · 6974 阅读 · 0 评论 -
科比罚篮,武器命中和霍金劫数
这是科比·布莱恩特(Kobe Bryant,美国NBA篮球巨星)退役前的一场比赛,科比所在的湖人队与马刺队的常规赛正在紧张激烈的进行。比赛已经来到了第4节的最后3秒钟,湖人队仍以98:100落后,眼看瞬间就要输掉比赛。此时,科比接到了队友的传球,在3分线上奋力一掷,哨声响起,球没有进!马刺队犯规,科比得到了3次罚球的机会。 问题: 已知科比职业生涯罚球命中率是83.3%,那么罚球3次,湖人队原创 2016-12-03 22:11:33 · 1664 阅读 · 2 评论 -
指数分布
指数分布是描述泊松分布中事件发生时间间隔的概率分布。除了用于泊松过程的分析,还有许多其他应用,如以下场景:世界杯比赛中进球之间的时间间隔超市客户中心接到顾客来电之间的时间间隔流星雨发生的时间间隔机器发生故障之间的时间间隔癌症病人从确诊到死亡的时间间隔 指数分布有如下的适用条件: 1. x是两个事件发生之间的时间间隔,并且x>0; 2. 事件之间是相互独立的; 3. 事件发生的频率原创 2016-11-27 13:02:25 · 41608 阅读 · 3 评论 -
统计学---极端异常值的检测
你在整理统计公司人的收入情况,手一抖,不小心把某个人的月薪26249变成262490了,某个人的月薪16895变成1689.5了。于是变成了如下的情况:incomes=[25590, 23306, 26780, 29463, 22485, 262490, 24985, 1689.5, 17700, 18257, 24132, 21479, 19304, 16511, 18573, 26606, 20原创 2017-12-19 21:59:01 · 24557 阅读 · 0 评论