
数学基础
文章平均质量分 68
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
回归模型常见的损失函数
注意:如果图片不显示,请建议科学上网或者使用VPN。机器学习中的所有算法都依赖于最小化或最大化函数,我们将其称为“目标函数”。最小化的函数组称为“损失函数”。损失函数是衡量预测模型在能够预测预期结果方面的表现有多好的指标。寻找最小值的最常用方法是“梯度下降”。想想这个函数的作用,如起伏的山脉和梯度下降就像滑下山到达最低点。没有一种损失函数适用于所有类型的数据。它取决于许多因素,包括异常值的存在,机器学习算法的选择,梯度下降的时间效率,易于找到衍生物和预测的置信度。损失函数可大致分为两类:分类和回归转载 2021-08-25 18:45:37 · 3328 阅读 · 1 评论 -
##haohaohao##概率图模型学习笔记:HMM、MEMM、CRF
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。概率图模型学习笔记:HMM、MEMM、CRF一、Preface二、Prerequisite 2.1 概率图2.1.1 概览2.1.2 有向图 vs. 无向图2.1.3 马尔科夫假设&马尔科夫性2.2 判别式模型 vs. 生成式模型2.3 序列建模三、H.转载 2021-01-21 10:40:57 · 536 阅读 · 0 评论 -
为什么残差连接的网络结构更容易学习
作者:言有三链接:https://www.zhihu.com/question/306135761/answer/683325207来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。关于残差网络为什么有效,研究众多,这里我们就集中讲述几个主流的思路。1、简化了学习过程,增强了梯度传播相比于学习原始的信号,残差网络学习的是信号的差值,这在许多的研究中被验证是更加有效的,它简化了学习的过程。根据我们前面的内容可知,在一定程度上,网络越深表达能力越强,性能越好.原创 2020-11-03 14:50:48 · 2372 阅读 · 0 评论 -
####好好好好#####关于贝叶斯,从贝叶斯方法谈到贝叶斯网络
在生信分析中经常会和贝叶斯打交道,比如贝叶斯分类器、贝叶斯网络、贝叶斯构建进化树等等。但是如果不清楚贝叶斯的原理,其实是很难对整个算法有深入了解的。这里小编整理了网络上的关于贝叶斯的最好的讲解,希望大家把它收藏起来,慢慢的啃。前言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James ...转载 2019-10-24 15:47:30 · 421 阅读 · 0 评论 -
########好好好好##########贝叶斯网络,看完这篇我终于理解了(附代码)!
目录1. 对概率图模型的理解 2. 细数贝叶斯网络 2.1 频率派观点 2.2 贝叶斯学派 2.3 贝叶斯定理 2.4 贝叶斯网络 2.5 朴素贝叶斯 3. 基于贝叶斯的一些问题 4. 生成式模型和判别式模型的区别 5. 代码实现 6. 参考文献1. 对概率图模型的理解概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型...转载 2019-07-17 18:47:26 · 656 阅读 · 0 评论 -
######好好好######MSE与CE的区别?数学推导 本质理解
面试官先问了几个简单问题,精灵自然轻松答出来了。终于面试官问到了MSE和CE的区别。面试官:MSE和CE你熟悉吗?精灵:熟悉,MSE就是mean square error,CE就是cross entropy。面试官:没错,是这样的,训练神经网络时,你经常用哪一个?精灵:如果是回归问题,用MSE,如果是分类问题,一般用CE。(这是一个小坑,先要区分问题是分类还是回归,面试官故意...转载 2018-10-31 10:57:46 · 1697 阅读 · 0 评论 -
MCMC(Markov Chain Monte Carlo) and Gibbs Sampling
1. 随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机转载 2018-01-03 11:42:37 · 664 阅读 · 0 评论 -
蒙特卡洛采样之拒绝采样(Reject Sampling)
引子蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡洛方法。通过随机抽样的方法,以随机事件转载 2018-01-03 11:38:58 · 7350 阅读 · 0 评论 -
####好好好########随机采样和随机模拟
http://blog.youkuaiyun.com/pipisorry/article/details/50615652随机采样方法模拟方法:是一种基于“随机数”的计算方法,基于数值采样的近似推断方法,也被称为蒙特卡罗( MonteCarlo )方法、随机模拟方法。通常均匀分布Uniform(0,1) 的样本,即我们熟悉的类rand()函数,可以由线性同余发生器生成转载 2018-01-03 11:13:36 · 663 阅读 · 0 评论 -
####好#几种更牛的采样方法###随机模拟的基本思想和常用采样方法(sampling)
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就转载 2018-01-03 11:01:17 · 533 阅读 · 0 评论 -
多分类问题multicalss classification
多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多”(1)一对一给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN},一对一将这N个类别两两配对,从而产生N(N-1)/2个二分类任务,在测试阶段新样本将转载 2017-12-27 11:37:53 · 3651 阅读 · 0 评论 -
从随机过程到马尔科夫链蒙特卡洛方法
1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling,当时因为要赶着做项目,虽然一头雾水,但是也没没有时间仔细看。趁目前比较清闲,把 machine learning 里面的 sampling methods转载 2017-12-27 11:08:56 · 555 阅读 · 0 评论 -
#####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值
关于模型检验的ROC值和KS值的异同_ROC曲线和KS值按我的理解,ROC曲线是累计坏占比曲线(图中蓝色曲线)下面的面积(>0.5),KS值是累计坏占比曲线-累计好占比曲线差值(图中红色曲线)的最大值。实际上他们都是一样的?不知道我的理解是否有误?谢谢! 精彩解答:ROC(Receiver Operating Characteristic Cu转载 2017-11-16 11:25:41 · 2592 阅读 · 0 评论 -
ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近转载 2017-11-07 14:21:17 · 1620 阅读 · 0 评论 -
正则化与数据先验分布的关系
过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形.解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正则化.从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布.(先验概率可理解为统计转载 2017-08-29 12:41:07 · 1786 阅读 · 0 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2017-08-22 17:30:05 · 424 阅读 · 0 评论 -
启发式算法(Heuristic Algorithm)
启发式算法(Heuristic Algorithm)有不同的定义:一种定义为,一个基于直观或经验的构造的算法,对优化问题的实例能给出可接受的计算成本(计算时间、占用空间等)内,给出一个近似最优解,该近似解于真实最优解的偏离程度不一定可以事先预计;另一种是,启发式算法是一种技术,这种技术使得在可接受的计算成本内去搜寻最好的解,但不一定能保证所得的可行解和最优解,甚至在多数情况下,无法阐述所得解同最优转载 2017-07-20 15:33:01 · 23005 阅读 · 0 评论 -
ARIMA模型
ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1 什么是ARIMA模型?2 ARIMA模型的基本思想3 ARIMA模型预测的基本程序4 相关链接4.1 各国的box-jenkins模型名称5 ARlMA模型案例分析5.转载 2017-07-08 13:29:36 · 5168 阅读 · 0 评论 -
ARIMA模型
ARIMA模型自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)目录[隐藏]1什么是ARIMA模型?2ARIMA模型的基本思想3ARIMA模型预测的基本程序4相关链接4.1各国的box-jenkins模型名称5ARlMA模型案例分析5.转载 2017-06-07 10:16:09 · 28293 阅读 · 1 评论 -
DTW(Dynamic Time Warping / 动态时间归整) python实现
[python] view plain copyfrom math import * import matplotlib.pyplot as plt import numpy def print_matrix(mat) : print '[matrix] width : %d height : %d' % (len(mat[0转载 2017-06-02 16:46:34 · 5255 阅读 · 0 评论 -
矩阵特征值分解与奇异值分解含义解析及应用
特征值与特征向量的几何意义矩阵的乘法是什么,别只告诉我只是“前一个矩阵的行乘以后一个矩阵的列”,还会一点的可能还会说“前一个矩阵的列数等于后一个矩阵的行数才能相乘”,然而,这里却会和你说——那都是表象。矩阵乘法真正的含义是变换,我们学《线性代数》一开始就学行变换列变换,那才是线代的核心——别会了点猫腻就忘了本——对,矩阵乘法 就是线性变换,若以其中一个向量A为中心,则B的作用主要是转载 2017-03-22 11:10:51 · 715 阅读 · 0 评论 -
softmax非常形象的示意图
原创 2017-03-08 17:25:28 · 4170 阅读 · 0 评论 -
仿射变换的意义
仿射变换(Affine Transformation或 Affine Map)是一种二维坐标到二维坐标之间的线性变换,它保持了二维图形的“平直性”(即:直线经过变换之后依然是直线)和“平行性”(即:二维图形之间的相对位置关系保持不变,平行线依然是平行线,且直线上点的位置顺序不变)。放射变换可以写为如下的形式:转载 2017-01-13 15:04:27 · 5498 阅读 · 0 评论 -
pyWavelet 小波工具箱的使用笔记
1 介绍本文档的内容参考了pyWavelet 0.1.6的User Guide和ver. 0.2.0的网上例子,主要是把我目前所需要的内容进行了翻译和整理得到的。 主要包含了1D、2D的分解与重构方法,和稳态小波分解重构等内容。 小波包的部分没有翻译,日后有需要的话可能增加。下载地址:http://www.pybytes.com/pywavelets 安装:转载 2016-12-01 17:39:53 · 17755 阅读 · 1 评论 -
EXCEL如何行与列互换转置表格
利用的是EXCEL选择性粘贴功能生活中我们出于需要,要转化行列的次序,EXCEL可以很简单的完成选中表格复制在所需要转置的地方右键 【选择选择性粘贴】 再选转置选项ok 效果如图转载 2016-11-07 16:35:30 · 2785 阅读 · 0 评论 -
Python图像处理库PIL中快速傅里叶变换FFT的实现(一)
离散傅里叶变换(discrete Fouriertransform)傅里叶分析方法是信号分析的最基本方法,傅里叶变换是傅里叶分析的核心,通过它把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。FFT是一种DFT的高效算法,称为快速傅立叶变换(fastFourier transform)。在数字图像处理中,FFT的使用非常普遍,是图像处理中最重要的算法之一。在此,我们对FFT转载 2016-11-03 15:16:15 · 2988 阅读 · 0 评论 -
白话压缩感知(含Matlab代码)
压缩感知介绍压缩感知(Compressive Sensing,CS),有时也叫成Compressive Sampling。相对于传统的奈奎斯特采样定理——要求采样频率必须是信号最高频率的两倍或两倍以上(这就要求信号是带限信号,通常在采样前使用低通滤波器使信号带限),压缩感知则利用数据的冗余特性,只采集少量的样本还原原始数据。这所谓的冗余特性,借助MLSS2014马毅老师的课件上的例转载 2016-11-03 15:08:49 · 2136 阅读 · 0 评论 -
pyWavelets工具包的安装及使用
1 介绍本文档的内容参考了pyWavelet 0.1.6的User Guide和ver. 0.2.0的网上例子,主要是把我目前所需要的内容进行了翻译和整理得到的。 主要包含了1D、2D的分解与重构方法,和稳态小波分解重构等内容。 小波包的部分没有翻译,日后有需要的话可能增加。下载地址:http://www.pybytes.com/pywavelets 安装:原创 2016-09-29 17:01:14 · 33588 阅读 · 1 评论 -
SVD和PCA
奇异值分解奇异值分解,singular value decomposition(SVD)是线性代数中一种重要的矩阵分解。记得大学时学习线性代数中的特征值和特征向量时,我就一直思考这个玩意算出来到底有啥用,难不成就是一群热(xian)爱(de)专(dan)研(teng)的人弄出来的数学小把戏?然后随着时间的推移,这些纯理论的东西就基本忘光了。大学的知识往往都这样的,和实际不接轨,学的时候不知转载 2016-09-22 17:23:49 · 646 阅读 · 0 评论 -
理解EM算法
写在前面EM(Expectation Maximization 期望最大化)算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。其每次迭代由E、M两步构成。下面首先给出一般EM算法的求解过程(怎么做),然后结合一个例子来理解,然后讲为什么这么求解,即推导,最后讲述EM算法在高斯混合模型中的应用及小结。EM算法转载 2015-12-11 09:33:07 · 909 阅读 · 0 评论 -
GMM混合高斯模型理论基础(基于EM算法)
我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被 assign 到其原创 2015-10-27 16:55:57 · 2391 阅读 · 0 评论 -
对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2015-10-20 16:41:41 · 628 阅读 · 0 评论 -
ROC曲线-阈值评价标准
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近转载 2015-10-13 16:20:45 · 644 阅读 · 0 评论 -
数据分析:Weka,Matlab,R,SPSS,SAS等分析软件
1 功能角度weka是机器学习方面的工具(开源)。spss是数学工具(商业工具)。具体的说,weka的主要功能是模式分类,或者模式识别或者回归。包括特征的降维(PCA),特征选择,训练模型以及对测试样本进行分类测试,几乎包含了机器学习中的所有常用分类器。当然还有聚类以及结果的图形可视化功能。spss,侧重统计分析。包括基础的数学运算,联合分析,时间序列分析,多元尺度方法等,原创 2015-10-13 15:37:04 · 2013 阅读 · 0 评论 -
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样转载 2015-10-08 10:33:46 · 2315 阅读 · 0 评论 -
(重要)Stanford机器学习---怎样选择机器学习方法、系统
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning转载 2015-09-30 10:32:36 · 555 阅读 · 0 评论 -
参数寻优问题详细解析
参数寻优参数寻优背景 参数寻优问题随处可见,举几个例子。 1. 小明假期结束回校,可以坐火车,可以坐汽车,可以坐飞机,还可以走着,小明从哪条路去学校更好呢? 2. 简单的数学,一元二次方程求根。 3. 高深的数学,七桥问题,怎么才能通过所有的桥各自一次走回七点所在的岸边。 4. 机器学习中,求代价函数在约束条件下的最优解问题。 其上四个转载 2015-09-29 15:55:44 · 20564 阅读 · 4 评论 -
深入理解LDA和pLSA
主题模型LDA 在开始下面的旅程之前,先来总结下我们目前所得到的最主要的几个收获:通过上文的第2.2节,我们知道beta分布是二项式分布的共轭先验概率分布: “对于非负实数和,我们有如下关系 其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Be转载 2015-09-21 23:02:48 · 14428 阅读 · 2 评论 -
几种采样方法总结
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就原创 2015-09-21 22:58:21 · 15334 阅读 · 0 评论 -
数据挖掘中所需的概率论与数理统计知识
数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了转载 2015-08-29 14:55:39 · 1061 阅读 · 0 评论