统计学习
文章平均质量分 94
Kanny广小隶
每一个不曾起舞的日子,都是对生命的辜负。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
图机器学习——5.4 图神经网络:另一种视角下的GCN
另一种视角下的GCN传统的卷积本质上就是一种加权求和方法。这种方法是针对图像或者视频数据中像素点(pixel)是排列整齐的矩阵进行处理,但遇到非欧结构中的拓扑图数据便无法进行计算。而在图卷积中,考虑的内容与之类似,核心思想为:图中的每个结点无时无刻不因为邻居和更远的点的影响而在改变着自己的状态直到最终的平衡,关系越亲近的邻居影响越大。(其实前面学习的embedding就是类似的思想)GCN方法又可以分为两大类,1. 基于空间(spatial-based); 2.基于频谱(spectral-based)原创 2022-05-23 16:20:39 · 740 阅读 · 0 评论 -
为什么不能说“接受原假设”?
我们主要从几个方面来说明,当统计中假设检验不显著时,为什么需要说 **不拒绝原假设** 而不能说 **接受原假设** 。原创 2022-04-10 16:20:52 · 5217 阅读 · 0 评论 -
HoroPCA: Hyperbolic Dimensionality Reduction via Horospherical Projections 学习笔记——1.背景介绍
HoroPCA学习笔记1. 背景介绍本篇博客学习的文章为:HoroPCA: Hyperbolic Dimensionality Reduction via Horospherical Projections。传统欧氏空间(Euclidean spaces)的主成分分析(Principal Component Analysis,PCA)是一种基本的降维技术,它寻找最能解释原始数据的一系列方向。下面将PCA推广到一般的双曲空间。给定一个方向,PCA依赖于下述几个核心点:这些方向所张成的仿射子空间(原创 2021-10-31 23:08:26 · 704 阅读 · 0 评论 -
双曲嵌入深度学习
1. 双曲空间双曲空间的定义是曲率为负常数的一类空间。我们首先以一个图为例,来看欧式空间与双曲空间的区别。左图为欧式空间,我们从中间节点向外部移动,走一步所能达到的网格数量是323^232,两步是525^252,网络空间会随着半径多项式(平方)的关系进行增长。反观右侧的树结构空间,假设为二叉树,从中心点向外走的节点个数是呈指数增长的,因此这是一个呈指数增长的空间。假设右侧的树结构我们嵌入到欧式空间上,那么红色的节点到绿色的节点在树上的距离相距888个结点,但直接在平面上看两个节点非常近。一个好的嵌入原创 2021-08-27 21:43:32 · 9504 阅读 · 4 评论 -
数据率失真理论(RATE DISTORTION THEORY)
数据率失真理论(Rate distortion theory)或称信息率-失真理论(information rate-distortion theory)是信息论的主要分支,其的基本问题可以归结如下:对于一个给定的信源(source, input signal)分布与失真度量,在特定的码率下能达到的最小期望失真是多少;或者为了满足一定的失真限制,可允许的最大码率为何,DDD 定义为失真的符号。要完全避免失真几乎不可能。处理信号时必须允许有限度的失真﹐可减小所必需的信息率。1959年﹐Claude Shan原创 2021-07-19 21:50:37 · 10932 阅读 · 4 评论 -
群组测试(Group testing)介绍
最近了解了群组测试 (Group testing) 的一些内容,在这里做个记录与分享。问题引入问题源于二战时期,美国需要通过血样检测美军是否携带梅毒,但是当时血液检测耗时耗钱,将每个士兵的血液都检查一遍效率很低。考虑到携带梅毒的总归是少数,Rosenblatt和Dorfman提出将全部待检测士兵的血样分组混合后再检测,如果混合后的血样没有病毒,可以推定整个组都没有病毒,如此便能够减少不必要的检测。具体测试过程示例如下所示:将以上问题标准化描述如下:给定集合NNN,其中有nnn个个体,每个个体原创 2021-01-04 15:05:36 · 4284 阅读 · 0 评论 -
Boosting 系列算法——7. LightGBM
LightGBM (Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练。其在Higgs数据集上LightGBM比XGBoost快将近10倍,内存占用率大约为XGBoost的1/6,并且准确率也有提升。GBDT在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据,普通的GBDT算法是不能满足其需求的。LightGBM提出的原创 2020-12-19 15:29:18 · 543 阅读 · 1 评论 -
Boosting 系列算法——6. XGBoost
1. 算法导出在XGBoost中,使用的目标函数相比于GBDT,添加一个新的正则项,主要目的是衡量模型的复杂程度,直接在损失函数中直接控制树的复杂度。Obj=∑i=1NL(yi,F(xi))⏟训练损失+∑m=1MΩ(hm)⏟树的复杂度,Obj=\sum_{i=1}^N \underbrace{L\left(y_i, F(\mathbf{x}_i)\right)}_{\text {训练损失}}+\sum_{m=1}^M \underbrace{\Omega\left(h_{m}\right)}_{\tex原创 2020-12-19 15:22:01 · 367 阅读 · 1 评论 -
Boosting 系列算法——5. Gradient Tree Boosting / Gradient Boosting Decision Tree (GBDT)
1. 算法介绍梯度提升通常与固定大小的决策树 (尤其是CART树)一起作为基学习器。对于这种特殊情况,Friedman在文章《Greedy function approximation: A gradient boosting machine.》中提出了一种对梯度增强的改进方法,以提高模型的学习与泛化能力。GBDT的第mmm步的弱学习器——回归树hm(x)h_{m}(\mathbf{x})hm(x)对模型当前的pseudo-residuals进行拟合。令JmJ_{m}Jm为树的叶子数。树将输入空间划原创 2020-12-19 15:14:21 · 646 阅读 · 1 评论 -
Boosting 系列算法——4. Gradient Boosting
1. 算法导出Gradient Boosting 是一种用于回归和分类问题的机器学习技术,其产生的预测模型是弱预测模型的集成,如采用典型的决策树 作为弱预测模型,这时则为梯度提升树(GBT或GBDT)。像其他提升方法一样,它以分阶段的方式构建模型,但它通过允许对任意可微分损失函数进行优化作为对一般提升方法的推广。Gradient Boosting 算法通过迭代的方式,将多个弱分类器结合成一个强分类器。最简单的解释是在最小二乘回归中,通过最小化均方误差1N∑i(y^i−yi)2{\tfrac {1}{N}原创 2020-12-19 14:23:55 · 1311 阅读 · 1 评论 -
Boosting 系列算法——3. Adaboost 的延伸算法
1. AdaBoost 的另一个理解角度前文所述的均为离散情况下的AdaBoost,简称:Discrete AdaBoost。下面我们从另一个角度来推导出Discrete AdaBoost算法。首先考虑最小化指数风险:C(F)=E(e−yF(x)).C(F)=\mathbb{E}\left(e^{-y F(\mathbf{x})}\right).C(F)=E(e−yF(x)).由于E(e−yF(x)∣x)=P(y=1∣x)e−F(x)+P(y=−1∣x)eF(x),∂E(e−yF(x)∣x)∂F(原创 2020-12-19 11:03:46 · 371 阅读 · 2 评论 -
Boosting 系列算法——2. Adaboost
1. 算法介绍AdaBoost 算法的全称是 Adaptive Boosting,其本质是用一系列弱分类器线性组合构造强分类器。弱分类器的性能只需比随机分类稍微好一些,依靠他们即可构造出一个非常准确的强分类器。强分类器的计算公式为:FM(x)=∑m=1Mαmhm(x),F_M(\mathbf{x}) = \sum_{m=1}^M \alpha_m h_m(\mathbf{x}),FM(x)=m=1∑Mαmhm(x),其中,x\mathbf{x}x是输入向量,FM(x)F_M(\mathbf原创 2020-12-19 10:53:28 · 478 阅读 · 3 评论 -
Boosting 系列算法——1. 简单概述
写在最前博主准备写几篇博客,主要将目前比较常见的一些Boosting算法进行汇总整理,帮助大家更好的进行机器学习算法的学习。同时对将来找工作的童鞋们也能有一些帮助。本系列博客参考了大量网上的内容(包括Wiki,中英文博客等),涉及到的相关Boosting算法的原始论文,以及李航老师的《统计学习方法》,三位大牛的《The Elements of Statistical Learning》,还有周志华老师的《集成学习》。为了方便大家对整个Boosting算法的理解,并且处于严谨的考虑,这一系列博客都将采用原创 2020-12-19 10:39:43 · 909 阅读 · 2 评论 -
可解释性神经网络——2.添加约束的xNN
在前面的文章中,我们介绍了 一种可解释性神经网络——xNN,而在本篇博客中,我们将要介绍一种针对前面文章的一种改进方法,使网络结构的可解释性更强,预测准确率更高。文章名称:Enhancing Explainability of Neural Networks through Architecture ConstraintsEnhancing Explainability of Neural Networks through Architecture Constraints模型介绍本博客所介绍的模型原创 2020-07-20 18:15:23 · 5922 阅读 · 4 评论 -
统计学面试经典问题
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。1) 大数定律弱大数定律(通常指辛钦大数定律):a) 马尔科夫大数定律:随机变量满足马尔科夫条件:1n2D(∑k=1nξk)→0\frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0n21D(∑k=1nξk)→0,则样本均值依概率收敛于期望值。b) 辛钦大数定律...原创 2019-12-29 21:22:00 · 24937 阅读 · 0 评论 -
一些变量筛选方法——3、部分其它变量筛选方法
由于《An Introduction to Statistical Learning with R》书中的方法书中的方法都是一些比较基础的方法,在做模拟实验以及真实超高维数据时,会出现很多局限性。因此本文后半部分介绍了课本上未提及到的一些方法。这些方法会在后面的模拟实验以及真实数据中进行应用,并且比较书上传统的方法与下述三种方法的真实变量筛选效果。首先介绍将L0L0L^0范数与L1L1L^1范...原创 2018-05-18 00:34:12 · 15594 阅读 · 3 评论 -
一些变量筛选方法——4、模拟实验
本系列博客聚焦于变量筛选的方法,所以前文中提及PCR与PLSR由于只能使数据进行降维,而不能进行变量选择,所以下面的模拟不使用这两种方法。模拟实验为了比较算法的优劣,我们构造了下列模拟(前两个是线性情况,后三个是非线性情况),其中部分参考现有文献中的构造,包含了线性和非线性的情况:1)   Y=c1β1X1+c2β2X2+c3β3I(X3&am原创 2018-05-19 00:34:25 · 9168 阅读 · 8 评论 -
一些变量筛选方法——2、《An Introduction to Statistical Learning with R》上的数据降维方法
前面提到,这里介绍的变量筛选的方法全部是基于《An Introduction to Statistical Learning with R》书中的方法,所以这里先开始介绍课本上的变量筛选方法,然后再进行延伸。课本上数据降维方法标准的回归模型定义为: Y=β0+β1X1+⋯+βpXp+ϵ,Y=β0+β1X1+⋯+βpXp+ϵ, Y = \beta_0 + \beta_1 X_1 + \...原创 2018-05-13 20:00:19 · 12810 阅读 · 1 评论 -
一些变量筛选方法——5、真实数据与总结
这里使用两个真实数据进行前面所述方法的应用。真实数据在实际数据运用中,针对高维和超高维数据的情况,算法该如何使用?如何实现?这里我们使用两组数据,一组是课本中提到的Hitters数据,另一组是自己搜索整理而出的土耳其新闻数据。前者是数十维,后者则是上千维。课本Hitters数据课本中的案例实验是以Hitters数据为例,这里进行重现。数据简介这个数据集取...原创 2018-05-22 08:26:50 · 33889 阅读 · 2 评论 -
Bayes分析中的无信息先验
贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。现代贝叶斯统计学的复兴肇...原创 2018-06-19 17:46:15 · 22617 阅读 · 2 评论 -
贝叶斯多层先验分布
什么是多层先验分布?所给定的先验分布中超参数难以确定时,可以对超参数再给出一个先验,第二个先验称为超先验。由先验和超先验决定的一个新先验就称为多层先验。简单来说,就是对你之前原本的先验分布上,再假设一层先验分布,这就是两层先验分布。(当然如果不嫌麻烦,可以无穷层的orz…)例:我们以一个例子来说明: 设某产品的不合格率为θθ\theta,θθ\theta的先验为π1...原创 2018-06-19 20:33:19 · 4973 阅读 · 0 评论 -
检验数据缺失的类型:《Statistical Analysis with Missing Data》习题1.6
题目解答由于题目要求需要重复三次类似的操作,故首先载入所需要的包,构造生成数据的函数以及绘图的函数:library(tidyr) # 绘图所需library(ggplot2) # 绘图所需# 生成数据GenerateData <- function(a = 0, b = 0, seed = 2018) { set.seed(seed) z1 <- r...原创 2018-09-22 18:01:33 · 2076 阅读 · 0 评论 -
缺失数据的极大似然估计:《Statistical Analysis with Missing Data》习题7.16
一、题目a)极大似然估计XXX为伯努利分布,并且Pr(X=1)=1−Pr(X=0)=π\text{Pr}(X = 1) = 1 - \text{Pr}(X = 0) = \piPr(X=1)=1−Pr(X=0)=π,并且在给定X=j  (j=0,1)X = j\ \ (j=0,1)X=j  (j=0,1)时,YYY的分布为均值μj\mu_jμj,方差σ...原创 2018-11-30 10:15:43 · 3086 阅读 · 0 评论 -
EM,SEM算法操作实例:《Statistical Analysis with Missing Data》习题9.1 & 9.2
一、题目Example 9.1 & 9.2重现书中Example 9.1与9.2。先贴出SEM算法:SEM下面是Example 9.1与Example 9.2原例:Example 9.1Example 9.2二、解答a)Example 9.1赋一些初值:y1 <- 38y2 <- 34eps <- 1e-30 # 当新旧两...原创 2018-11-30 10:45:19 · 2066 阅读 · 0 评论 -
利用EM算法进行多维正态缺失数据的参数估计(使用Sweep Operator)——1. 进行均值向量与协方差阵的估计
简介本篇博客主要介绍如何利用EM算法进行多维正态缺失数据的参数估计,并进行R代码的实现。这里主要是使用Sweep Operator来实现。首先感谢我的队友JB大哥、xiaojj舍友以及杰哥,大家的共同努力,才完成了这份作业。关于Sweep Operator来做Multiple Regression,说的比较好的是下面这个网站,大家可以先进行学习(因为后面算法的核心就是这个):The SWE...原创 2018-12-26 22:07:50 · 6369 阅读 · 5 评论 -
利用EM算法进行多维正态缺失数据的参数估计(使用Sweep Operator)——2. 进行估计参数的方差估计
本篇文章接着上一篇:利用EM算法进行多维正态缺失数据的参数估计(使用Sweep Operator)——1. 进行均值向量与协方差阵的估计在利用EM算法进行多维正态缺失数据的参数估计之后,我们如何来看我们估计参数的准确性呢(也就是为这些参数再估计一个方差)?这里就不介绍boostrap与jackknife方法来进行估计。我们介绍另一种:使用Fisher信息阵来进行估计的方法:其实核心就一个,对估...原创 2018-12-29 15:28:18 · 2630 阅读 · 0 评论 -
一些变量筛选方法——6、代码
之前有小伙伴说希望公开之前变量筛选文章的代码,这里时隔好多个月,或许都一年了,将之前的代码整理出来了。当时由于时间有限,只有几天的时间将论文和代码赶出来,所以写的不是很好,全程for循环,还请见谅!CodeSimulation# --------------------- simulation --------------------- #library(glmnet)librar...原创 2019-01-16 15:45:25 · 7688 阅读 · 10 评论 -
一些变量筛选方法——1、综述
写在最前由于《An Introduction to Statistical Learning with R》课程论文需要我们进行对一些变量筛选方法与降维的方法进行综述,所以这里将分几个部分,将学到的一些变量筛选方法写在博客之中。写成一篇长博客看得比较吃力,写的也比较慢,所以这里慢慢一部分一部分的来写。综述高维统计问题来自科学研究和技术发展的多个领域,在科学与人文等不同领域中变得越来...原创 2018-05-11 00:32:32 · 31144 阅读 · 3 评论
分享