
r语言
文章平均质量分 68
zxy_clover
这个作者很懒,什么都没留下…
展开
-
R语言 t.test()
t.test(x, y = NULL, alternative = c("two.sided", "less","greater"), mu= 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)参数意思用法x原创 2017-10-15 11:19:55 · 35328 阅读 · 0 评论 -
R语言 BP神经网络
神经网络是由具有适应性的简单单元组成的广泛进行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。人工神经网络对一组输入信号和一组输出信号之间的关系建模,使用的模型来源于人类大脑对来自感觉输入的刺激是如何反应理解的。就像大脑使用一个称为神经元的相互连接的细胞网络来创建一个巨大的并行处理器,人工神经网络使用人工神经元或者节点的网络来解决学习问题。人工神经网络可以用在数据的分类、原创 2018-03-24 21:15:53 · 15126 阅读 · 0 评论 -
R语言 支持向量机
支持向量机可以想象成一个平面,改平面定义了个数据点之间的界限,而这些数据点代表它们的特征绘制多维空间中的样本。支持向量机的目标是创建一个称为超平面的平面边界,它使得任何一个的数据划分都是相当均匀的。支持向量机几乎可以适用于所有的学习任务,包括分类(svm)、数值预测、回归(svr)。R实现及参数说明1)kernlab包 函数ksvm()通过。Call接口,使用bsvm和libsvm库中原创 2018-03-26 19:52:17 · 4424 阅读 · 0 评论 -
r语言 集成学习
集成学习通过构造并结合多个学习器来完成学习任务原理: 先产生一组“个体学习器”,在用某种策略将它们结合起来boosting:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的样本在后续受到更多关注,然后基于调整后的样本分布训练下一个基学习器;如此重复下去,直至基学习器数目达到事先指定的值T,最终将这T个学习期进行加权结合。bagging:是投票式算法,...原创 2018-03-26 22:07:08 · 1725 阅读 · 0 评论 -
R语言 朴素贝叶斯
朴素贝叶斯是一种十分简单的分类算法,是一种基于概率的分类器,它源于贝叶斯理论,假设样本属性之间相互独立。思路:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,那个最大,就认为此待分类项属于那个类别。三个阶段:1)准备阶段主要工作是根据具体情况确定特征属性,并适当划分每个特征属性,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数原创 2018-03-26 23:19:01 · 2471 阅读 · 0 评论 -
R语言 Cox-Stuart趋势检验
在客观世界中会遇到各种各样随时间变动的数据序列,我们关心这些数据随时间变化的规律(增长或者下降的趋势)。例如GDP是否逐年增长,某种疾病的患者是否在不断减少,这时我们就要对该序列进行趋势检验。假设数据序列x1,x2,x3,……,xn独立,我们以某一常数c为界把该序列分成两部分,并将这两部分两两配对成(x1,xc+1),(x2,xc+2),……(xc,xn)的形式,其中当n为偶数时,c=n/2;当n...原创 2018-04-16 21:13:25 · 11717 阅读 · 1 评论 -
随机游程检验
在实际中,我们经常考虑一个序列中的数据出现是否与顺序无关,这关系到数据是否独立。一个典型的序列是二元0/1序列出现的随机性问题。在一个二元序列中,0和1交替出现。首先引入概念:在一个二元序列中,一个由0或1连续构成的串成为一个游程,一个游程中数据的个数成为游程的长度。一个序列中游程个数用R表示,R表示0和1交替轮换的频繁程度。例子: 10000111011000011110解析:总共有20个数,0...原创 2018-04-16 21:48:05 · 10991 阅读 · 1 评论 -
关联规则
关联规则是无监督学习,是用于知识发现,而并非预测。支持度:数据库D中事务同时包含X、Y的百分比置信度:数据库D中事务包含X的情况下,包含Y的百分百注:若满足最小支持度阈值和最小置信度玉坠,则认为关联规则是有趣的。但此阈值是根据 挖掘需要认为设定的。过程(两阶段):一阶段:必须先从资料集合中找出所有的高频项目组(支持度)二阶段:由这些高频项目组中产生关联规则(置信度)注:关联规则挖掘通常比较适合与记...原创 2018-04-19 20:16:13 · 2558 阅读 · 0 评论 -
R语言 k近邻法
k近邻法是机器学习方法最简单的方法之一基本思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于一个类别,则该样本也属于这个样本。在k近邻法算法中,所选择的邻居都是已经正确分类来决定待分样本所属的类别。k临近算法主要依靠周围有限的邻近样本,属于样本中概率大的样本。r语言中k近邻法算法的实现1、class包 knn( )2、kknn包中的k原创 2018-03-12 22:28:10 · 3814 阅读 · 0 评论 -
R语言 模型评估与选择
1、 经验误差如果在m个样本中有a个样本分类错误,则错误率为E=a/m,对应地精确度为1-a/m。实际预测输出与样本的真实值之间的差异成为“误差”。学习器在训练集在的误差成为“经验误差”。在新样本上的误差称为“泛化误差”。显然,泛化误差小的学习器是我们希望得到的。2、 评估方法测试集是用来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。2.1 训练样本和测试样本划分1...原创 2018-03-13 23:00:53 · 6426 阅读 · 0 评论 -
r语言 偏度峰度
偏度: 偏度用于衡量x的对称性。 若偏度为负, 则x均值左侧的离散度比右侧强; 若偏度为正, 则x均值左侧的离散度比右侧弱; 对于正态分布(或严格对称分布)偏度等于0峰度: 峰度用于度量x偏离某分布的情况,正态分布的峰度为3。 当时间序列的曲线峰值比正态分布的高时,峰度大于3; 当比正态分布的低时,峰度小于3在...原创 2017-10-14 13:45:42 · 39519 阅读 · 1 评论 -
R语言 时间序列(一)
定义:是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。序列容易受到长期趋势、季节变动、循环变动、不规则变动等因素的影响。1. 预处理1.1 平稳性检验1)时序图时序图就是一个二维平面,通常横轴表示时间,纵轴表示序列取值平稳特征:无明显趋势和以及周期性下图有下降的趋势,则该序列是不平稳的原创 2018-03-29 19:49:02 · 7827 阅读 · 0 评论 -
R语言 时间序列之ARIMA模型
自回归移动平均模型(arima)ARMA模型是对不含季节变动的平稳序列进行建模。ARIMA模型的本质和ARMA是一样的,只是ARIMA针对不平稳的序列进行建模的,将ARMA模型里的序列值进行差分就可以。定阶以及参数说明acf值pcf值模型拖尾(逐渐为0)p阶截尾ARIMA(p,d,0)q阶截尾拖尾ARIMA(0,d,q)拖尾拖尾ARIMA(p,d,q)以尼罗河数据为例子 plot(Nile) ...原创 2018-03-29 22:25:10 · 28974 阅读 · 4 评论 -
R语言 kmeans聚类
原理: 将数据集中的样本划分为若干个通常是不想交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇对英语一些潜在的概念(类别)1. 基本问题1)性能度量对聚类结果评价好坏:簇内相似度高,簇间相似度低2)距离计算2. kmeans 聚类1)找最优的K值# cluster.stats函数需要使用fpc库 library(fpc); library(ggplot2) K <- ...原创 2018-03-20 20:26:43 · 2731 阅读 · 0 评论 -
R语言 层次聚类(系统聚类)
层次聚类试图在不同层次对数据集进行划分 library(NbClust) data(nutrient, package = 'flexclust') row.names(nutrient) <- tolower(row.names(nutrient)) nutrient.scale <- scale(nutrient) d <- dist(nutrient.scale)原创 2018-03-20 21:25:37 · 4982 阅读 · 0 评论 -
R语言 密度聚类
动态聚类往往聚出来的类有点圆形或者椭圆形。基于密度扫描的算法能够解决这个问题。思路就是定一个距离半径,定最少有多少个点,然后把可以到达的点都连起来,判定为同类。在r中的实现 library(fpc) newiris <- iris[, 1:4] ds <- dbscan(newiris, eps = 0.5, MinPts = 5, scale = T,原创 2018-03-20 21:59:56 · 825 阅读 · 0 评论 -
R语言 决策树及其实现
一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到叶结点的路径对应于了一个判定测试序列。目的:为了产生一颗泛化能力强,即处理未见示例能力强的据决策树。特别注意几点:1)通常所说的属性是离散,若属性是连续,则要把属性离散化,最简单的是是采用二分法(找划...原创 2018-03-22 20:59:37 · 10943 阅读 · 10 评论 -
单一样本Wilcoxon符号秩检验
数据要求:单峰对称分布,数据在其两边分布的疏密情况是对称的很过不对称的单峰数据分布可能通过变换化为对称分布。多峰分布通过混合分布整体表示后,每一个分布也可以用单峰对称的分布表示。就对称分布而言,对称中心只有一个,中位数却可能有很多个。例子: -0.27 -0.03 -0.56 -0.14 -0.15 30 80 100对数据来说,0是这组数据的中位数原创 2018-04-19 21:08:28 · 15938 阅读 · 4 评论