
R
文章平均质量分 77
data_honey
人在国外,基本不更新csdn了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
logistic regression(二项 logistic 与 多项logistic )
逻辑斯蒂回归基本思想数学推导基于R的案例结论基本思想这一讲给大家介绍一下,广义线性回归模型当中的一个最为典型的模型,逻辑斯底回归(logistic regression)。估计大家都见过。我们最长用到的是二值逻辑斯底回归,多项逻辑斯底书里边介绍的少。今天我们重点说一下,二项逻辑斯底回归和多项逻辑斯底回归。我们先简单聊聊传统的线性回归,我们说线性回归就是y=k0+k1xy=k_0+k_1x,原创 2017-12-19 20:11:34 · 7190 阅读 · 0 评论 -
基于R语言的聚类分析(k-means,层次聚类)
今天给大家展示基于R语言的聚类,在此之前呢,首先谈谈聚类分析,以及常见的聚类模型,说起聚类我们都知道,就是按照一定的相似性度量方式,把接近的一些个体聚在一起。这里主要是相似性度量,不同的数据类型,我们需要用不同的度量方式。除此之外,聚类的思想也很重要,要是按照聚类思想来说,主要有这么几大类,第一大类是基于分割的聚类,比如k-means,以及按照这个思路进行了简单扩展的几个聚类,如k-median等。原创 2017-12-17 21:42:11 · 137498 阅读 · 24 评论 -
基于R的聚类分析(DBSCAN,基于密度的聚类分析)
DBSCAN聚类分析(基于R语言) 在上一讲中,主要是给大家介绍了,K-means聚类,层次聚类这两种聚类方法是最为典型的两种聚类方法。K-means聚类基本原理是这样的,在n个样本点中,首先提前设定要聚类几类,比如说要聚成三类,那么在n个样本点中先随机选择三个点,最为初始点,将剩下的n-3个点按照距离的原则(所谓聚类原则就是哪个点距离它近,就将这个点分配给它),分别分配到这三个点。这样的话,就初原创 2017-12-17 22:54:31 · 9988 阅读 · 1 评论 -
基于R的聚类模型(混合模型-基于概率密度分布的聚类方法)
混合模型 在上一讲当中,我们给大家介绍了一种比较特殊的聚类算法,DBSCAN。这种算法主要针对一些样本点分布比较特殊的情形,并且我们通过例子发现,传统K-means算法对这种数据无效。在这一讲当中,我们再次看一种比较比较常见,适用情形非常固定的聚类算法,叫做混合模型,这种聚类算法是假设样本分布来自一个潜在的概率分布。或者若干个概率分布的混合。那么样本点的出现也就可以理解为从这个混合分布中抽取的。这原创 2017-12-18 10:51:40 · 3978 阅读 · 3 评论 -
基于R语言的聚类(谱聚类)
谱聚类 在上一讲当中,我们讲解了基于模型的聚类,也就是混合模型,实质上是首先拟合一个混合概率分布,再求条件概率,最终确定每一个点应当属于哪一类。在这一讲当中,我们谈一谈谱聚类,谱聚类和DBSCAN这种聚类方法一样,都是适用于那种奇形怪状的数据集,绝大多数都是人造数据集,比如下图: 像这种样子的数据,k-means或者一般基于距离的聚类算法都会无效。基于密度的聚类算法也不行,因为样本整体分布比原创 2017-12-18 11:36:42 · 8494 阅读 · 1 评论 -
基于R的主成分分析
基于R的主成分分析背景介绍数学原理推导基于R的实验结论背景介绍这一讲,我们讲讲主成分分析( Principal Component Analysis),这是一种非常经典的方法。经常和主成分分析一起出现的是另一种经典的方法,叫因子分析(factor analysis)。其实这两个方法还是不一样的,主成分分析的基本思想是:寻求现有许多自变量的一个线性组合,并且呢,这个线性组合的方差要最大,方差原创 2017-12-19 10:00:10 · 3914 阅读 · 0 评论 -
因子分析(factor analysis)
因子分析基本思想公式推导基于R的实验结论基本思想在这一讲当中呢,我们谈一谈,因子分析(factor analysis),在上一节当中,我们说了主成分分析,我们说这两种方法有点相似,初学者往往有些搞不清楚。首先从原理上说,主成分分析是试图寻找原有自变量的一个线性组合。这个组合方差要大,那么携带的信息也就多,也就是相当于把原始数据的主要成分给拿了出来。而因子分析呢,是从假设出发,它是假设所有的原创 2017-12-19 15:32:24 · 102972 阅读 · 4 评论