
深度学习与机器学习理论
文章平均质量分 86
ccbka
本人是重亲大学仪器科学与技术的研究生,专业方向是图像识别,正在关注的领域是深度学习
展开
-
交叉熵损失函数
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a转载 2017-11-17 16:01:17 · 994 阅读 · 0 评论 -
P-R曲线与mAP
reference:http://blog.youkuaiyun.com/marising/article/details/6543943在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision R转载 2017-11-26 18:59:08 · 17426 阅读 · 0 评论 -
ROC
ROC和AUC介绍以及如何计算AUCJune 22, 2013ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,转载 2017-11-26 18:26:21 · 286 阅读 · 0 评论 -
KL散度与极大似然
极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大,那么就取参数估计,使A出现的概率最大。设随机变量Y具有概率密度函数,θ是参数向量。当我们得到Y的一组独立观测值时,定义θ的似然函数为。极大似然法是采用使L(θ)最大的转载 2017-11-23 23:34:35 · 4443 阅读 · 3 评论 -
极大似然与最小二乘
最大似然估计和最小二乘法还有一大区别就是,最大似然估计是需要有分布假设的,属于参数统计,如果连分布函数都不知道,又怎么能列出似然函数呢? 而最小二乘法则没有这个假设。 二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题,最大似然估计不一定是。那么为啥有这么多人把MLE和OLSE搞混,因为当likelihood用于gaussian的时候,由于gaussian k原创 2017-11-23 23:04:07 · 753 阅读 · 0 评论 -
PCA主成分分析
一、PCA简介1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了转载 2017-11-23 21:33:11 · 347 阅读 · 0 评论 -
广义线性模型
今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。 Contents 1.转载 2017-11-22 20:33:11 · 6295 阅读 · 0 评论 -
逻辑回归
http://blog.youkuaiyun.com/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多转载 2017-11-21 12:08:42 · 227 阅读 · 0 评论 -
特征选择
特征选择1.相关性通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关性:下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值,从图中可以看出不同程度的相关性。 p值越高,我们越不能信任这个相关系数 上图转载 2017-11-21 12:02:20 · 502 阅读 · 0 评论 -
相似性度量
修正cosine考虑的是对item(商品) i打过分的每个user u,其打分的均值,Pearson考虑的是每个item i 的被打分的均值<img src="https://pic4.zhimg.com/50/2d9e3af80ceb49945ce5c0f34d26c9e3_hd.jpg" data-rawwidth="567&原创 2017-11-21 11:16:48 · 874 阅读 · 0 评论 -
极大似然估计
极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率转载 2017-11-20 22:39:29 · 332 阅读 · 0 评论 -
交叉验证
假设我们需要从某些候选模型中选择最适合某个学习问题的模型,我们该如何选择?以多元回归模型为例:,应该如何确定k的大小,使得该模型对解决相应的分类问题最为有效?如何在偏倚(bias)和方差(variance)之间寻求最佳的平衡点?更进一步,我们同样需要知道如何在加权回归模型中选择适当的波长参数,或者在基于范式的SVM模型中选择适当的参数C?我们假设模型集合为有限集,我们的目的就是从这d个模型原创 2017-11-26 22:05:41 · 593 阅读 · 0 评论