- 博客(18)
- 收藏
- 关注
原创 Lasso regression(稀疏学习,R)
这一讲呢,给大家讲解一下lasso回归。目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索。那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑。lasso 回归就是这个意思,就是让回归系数不要太大,以免造成过度拟合(overfitting)。所以呢,lasso regression是个啥呢,就是一个回归,并且回归系数不要太大。这个思
2017-12-19 22:10:36
41843
2
原创 logistic regression(二项 logistic 与 多项logistic )
逻辑斯蒂回归基本思想数学推导基于R的案例结论基本思想这一讲给大家介绍一下,广义线性回归模型当中的一个最为典型的模型,逻辑斯底回归(logistic regression)。估计大家都见过。我们最长用到的是二值逻辑斯底回归,多项逻辑斯底书里边介绍的少。今天我们重点说一下,二项逻辑斯底回归和多项逻辑斯底回归。我们先简单聊聊传统的线性回归,我们说线性回归就是y=k0+k1xy=k_0+k_1x,
2017-12-19 20:11:34
7155
原创 因子分析(factor analysis)
因子分析基本思想公式推导基于R的实验结论基本思想在这一讲当中呢,我们谈一谈,因子分析(factor analysis),在上一节当中,我们说了主成分分析,我们说这两种方法有点相似,初学者往往有些搞不清楚。首先从原理上说,主成分分析是试图寻找原有自变量的一个线性组合。这个组合方差要大,那么携带的信息也就多,也就是相当于把原始数据的主要成分给拿了出来。而因子分析呢,是从假设出发,它是假设所有的
2017-12-19 15:32:24
102810
4
原创 基于R的主成分分析
基于R的主成分分析背景介绍数学原理推导基于R的实验结论背景介绍这一讲,我们讲讲主成分分析( Principal Component Analysis),这是一种非常经典的方法。经常和主成分分析一起出现的是另一种经典的方法,叫因子分析(factor analysis)。其实这两个方法还是不一样的,主成分分析的基本思想是:寻求现有许多自变量的一个线性组合,并且呢,这个线性组合的方差要最大,方差
2017-12-19 10:00:10
3879
原创 基于R语言的分位数回归(quantile regression)
分位数回归(quantile regression) 这一讲,我们谈谈分位数回归的知识,我想大家传统回归都经常见到。分位数回归可能大家见的少一些,其实这个方法也很早了,大概78年代就有了,但是那个时候这个理论还不完善。到2005年的时候,分位数回归的创立者Koenker R写了一本分位数回归的专著,剑桥大学出版社出版的。今年本来老爷子要出一本《handbook of quantile regres
2017-12-18 17:45:21
41566
4
原创 基于R语言的聚类(谱聚类)
谱聚类 在上一讲当中,我们讲解了基于模型的聚类,也就是混合模型,实质上是首先拟合一个混合概率分布,再求条件概率,最终确定每一个点应当属于哪一类。在这一讲当中,我们谈一谈谱聚类,谱聚类和DBSCAN这种聚类方法一样,都是适用于那种奇形怪状的数据集,绝大多数都是人造数据集,比如下图: 像这种样子的数据,k-means或者一般基于距离的聚类算法都会无效。基于密度的聚类算法也不行,因为样本整体分布比
2017-12-18 11:36:42
8445
1
原创 基于R的聚类模型(混合模型-基于概率密度分布的聚类方法)
混合模型 在上一讲当中,我们给大家介绍了一种比较特殊的聚类算法,DBSCAN。这种算法主要针对一些样本点分布比较特殊的情形,并且我们通过例子发现,传统K-means算法对这种数据无效。在这一讲当中,我们再次看一种比较比较常见,适用情形非常固定的聚类算法,叫做混合模型,这种聚类算法是假设样本分布来自一个潜在的概率分布。或者若干个概率分布的混合。那么样本点的出现也就可以理解为从这个混合分布中抽取的。这
2017-12-18 10:51:40
3944
2
原创 基于R的聚类分析(DBSCAN,基于密度的聚类分析)
DBSCAN聚类分析(基于R语言) 在上一讲中,主要是给大家介绍了,K-means聚类,层次聚类这两种聚类方法是最为典型的两种聚类方法。K-means聚类基本原理是这样的,在n个样本点中,首先提前设定要聚类几类,比如说要聚成三类,那么在n个样本点中先随机选择三个点,最为初始点,将剩下的n-3个点按照距离的原则(所谓聚类原则就是哪个点距离它近,就将这个点分配给它),分别分配到这三个点。这样的话,就初
2017-12-17 22:54:31
9945
1
原创 基于R语言的聚类分析(k-means,层次聚类)
今天给大家展示基于R语言的聚类,在此之前呢,首先谈谈聚类分析,以及常见的聚类模型,说起聚类我们都知道,就是按照一定的相似性度量方式,把接近的一些个体聚在一起。这里主要是相似性度量,不同的数据类型,我们需要用不同的度量方式。除此之外,聚类的思想也很重要,要是按照聚类思想来说,主要有这么几大类,第一大类是基于分割的聚类,比如k-means,以及按照这个思路进行了简单扩展的几个聚类,如k-median等。
2017-12-17 21:42:11
137062
24
原创 大一新生信息可视化展示(基于Echarts)
哈哈,今天我们说点有意思的,我们刚进大学的时候第一件事情就是想知道整个新生群体的信息,比如,今年河北录取了多少人,山东录取了多少人。进一步呢,我们还想知道,各个学院的人数,比如最大的学院他们有多少人,最小的学院有多少人。当然了,男女比例更想知道了,最起码想知道,各个学院的男女比例,非常不幸的是,在我上大学的时候,学校没有公布这些信息,最多公布出各个省的录取人数,其他的就不知道了。非常幸运的是,在我大
2017-12-17 20:42:11
5992
3
原创 julia语言做数据预处理
Julia语言数据预处理 本文简单介绍拿Julia语言进行数据预处理,数据R语言和python的都应该有感觉,就是R和python做数据预处理非常方便。R方面主要是有dplyr这个包,或者是datatable这个包。python对应的pandas这个库,因此这几个包极大地促进了数据预处理。juila语言其实在这个方面也是非常强的,因为julia本身就是吸收了python,R,matlab等一系列语
2017-12-17 20:01:43
4080
原创 特征工程(feature engineering)
今天我们聊一聊特征工程方面的知识,随着大数据时代的到来,特征工程发挥着越来越重要的作用。那么什么是特征工程呢,简单说,就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。一般来说,特征工程大体上可以分为三个方面,一是特征构造,而是特征选择,三是特征生成。三个方面当中,最重要的是特征选择,我们先简单讲一下,特征构造和特征生成,后面再将特征选择。当然一个特征工程
2017-12-08 23:09:52
27860
2
原创 好书推荐《sparse modeling Theory, Algorithms, and Applications》稀疏学习
今天给大家推荐一本书《sparse modeling Theory, Algorithms, and Applications》,大家一看名字就猜到内容了,关于稀疏学习的,如果对机器学习或者统计比较了解的大家肯定都知道稀疏学习,那么这里我再简单说两句。那么什么叫稀疏学习呢,简单说,就是一个模型里边还有很多参数需要我们通过样本进行计算,比如线性里边回归系数,神经网络里边神经元与神经元之间连接的权重
2017-12-07 22:32:02
1785
原创 统计与机器学习发展的三条主线(三)
昨天带领大家沿着线性回归的路线走了一下,我们谈到线性回归有两个点子可以发展,一个点子就是从线性回归线上点的含义发展,线性回归直线上的每个点代表在给定x的情况下,y的均值,既然有均值,也就是存在实际存在着y的一个分布。实际上我们是在损失函数为均方损失的条件下,利用最小二乘法得到的就是均值,如果损失函数是绝对值函数呢,得到的就是中位点回归,也叫鲁棒回归(robust regression),为什么叫它
2017-12-07 21:57:01
494
原创 好书推荐《R语言在定量金融中的应用》
给大家推荐一本R语言在定量金融方面的好书,是我老师编写的,我也非常有幸参与到这本书的编写过程中。这本书2015年5月份正式上线,其实从2013年底开始写的,经历大约两年的时间。这本书一出来就收到了很大的关注,读者反映都很好。这本书本身是属于一个系列的《数量经济系列丛书》一本,这系列的书封面很相似,都是蓝的的背景。这个系列的其他书大家可能都见过,在市面上也很受欢迎。下面我大体介绍一下《R语言在定量金
2017-12-06 20:00:30
4750
1
原创 统计与机器学习发展的三条主线(二)
今天我们继续,昨天我们说要带领大家捋一捋统计与机器学习发展的几条主线,上一篇文章主要是从神经网络谈起,从最开始的感知器,发展到BP算法,再到后面的卷积神经网络以及最后的深度信度网络,这可以说是神经网络非常重要的一条发展主线,而且到现在也还在发展,从2012年起,又有许多新的神经网络提出来,在图像识别,自然语言处理,推荐算法方面都有很重要的应用。那么我们今天沿着的主线又是什么呢,是回归,而且是线
2017-12-06 19:08:04
442
1
原创 统计与机器学习发展的三条主线(一)
今天在这里简单谈谈统计与机器学习发展的三条主线。第一,为什么我们要找主线,答案很简单,如果没有主线的话,我们学习一个东西就困难很多。举个例子来说,微积分的主线是什么,那么大家都知道,刚开始牛顿和莱布尼兹搞出来微积分了,但是呢,有很多积分是无法安装牛顿那一套来计算的,所以后面勒贝格为了解决一些积分无法计算的问题,又提出了勒贝格积分,也就是现在的实变函数了,大数学家黎曼为了解决微积分在复数上的运算,又
2017-12-05 22:51:38
683
原创 开通博客了
开始写博客了,主要是对这几年自己的学习做一个小的总结。2011年上大学以来,主要是围绕数学+计算机+其他的模式进行学习,这几年下来感觉收获还真不少。
2017-12-05 21:40:36
306
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人