
多元统计分析
文章平均质量分 79
纸境止境
暂无
展开
-
33 基本统计知识——单项非参数检验
1.卡方检验的目的及其基本思想文章目录1.卡方检验的目的及其基本思想2.二项分布检验3.游程检验4.单样本K-S检验(Kolmogorov-Smirnov) 卡方检验的目的就是通过样本数据的分布来检验总体分布与期望分布或某一理论分布是否一致,零假设是样本的总体分布与期望分布或某一理论分布无显著差异。 卡方检验基本思想是,如果从一个随机变量XXX中随机抽取若干个观察样本,当这些样本落在XXX的kkk个互不相关的子集中的观察频数服从一个多项分布,当kkk趋于无穷时,这个多项分布服从卡方分布,根据这个思原创 2022-05-08 23:40:03 · 614 阅读 · 0 评论 -
32 基本统计知识——假设检验
1.假设检验的一般步骤(1)提出零假设(Ho)。根据检验的目标,对需要检验的最终结果提出一个零假设。(2)选择检验统计量。假设检验中,总是通过计算检验统计量的概率值进行判断,这些统计量服从或近似服从已知的某种分布,常用的有t分布、F分布等。(3)计算检验统计量观测值发生的概率。在认为零假设成立的前提下,计算检验统计量观测值发生的概率,记为p,概率p值就是在零假设成立的前提下样本值发生的概率,对此可以根据一定的标准来判定其发生的概率是否是小概率。(4)给定显著性水平,做出判断。显著性水平指零假原创 2022-05-08 23:38:06 · 9409 阅读 · 0 评论 -
28 模型评估技术
标签:机器学习与数据挖掘(此部分不熟悉的话,可以返回看本系列博客各大章节的内容。每一种方法后面都讲到了评估模型的过程,更加详细的可以回头看,这里做一个概念梳理和汇总。)  在这一系列的博客开始之前,我们知道,跨行业数据挖掘标准流程包括以下6个阶段:(1)业务理解阶段(2)数据理解阶段(3)数据准备阶段(4)建模阶段(5)评估阶段(6)部署阶段  之前我们的博客都围绕着建模来展开的,现在我们进入讨论对模型的评估阶段。原创 2022-04-17 12:02:52 · 633 阅读 · 0 评论 -
27贝叶斯分类(三)
标签:机器学习与数据挖掘## 1. 贝叶斯信念网络  朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。  所以,我们使用贝叶斯信念网络(Bayesian Belief Network,BBN)或者直接叫做贝叶斯网原创 2022-04-17 12:01:50 · 842 阅读 · 0 评论 -
贝叶斯分类(二)
标签:机器学习与数据挖掘## 1.数据平衡  在欺诈调查中,如果数据集中仅有一小部分事务存在欺诈问题,则算法将会简单地忽略此类事务,仅考虑无欺诈事务,这样做的正确率仍然能够达到99.99%。但是,这样的话,就没法打到我们的目的。因此,平衡采样方法可用于缩小出现在训练数据中的目标类的差距。我们可以选择采用的两种数据平衡的办法:- 重采样稀疏记录- 取消部分非稀疏记录(这个博客系列里,我们就暂时只考虑这两种方法,更多的可以参阅:https://www.leiphon原创 2022-04-17 12:00:47 · 614 阅读 · 0 评论 -
24 二分逻辑回归
## 1.逻辑回归特点  In logistic regression, a line L1 defines a probability distribution over the input space. A line L1 is said to be better than line L2, if the the distribution defined by L1 is low at class ‘-1’ points and high at class ‘+1’原创 2022-02-12 15:35:40 · 807 阅读 · 0 评论 -
23 神经网络(使用R)
## 1.神经网络特点(1)可以充分逼近任意复杂的非线性关系;(2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;(3)采用并行分布处理方法,使得快速进行大量运算成为可能;(4)可学习和自适应不知道或不确定的系统;(5)能够同时处理定量、定性知识。(6)神经网络对于噪声数据有较强的鲁棒性。## 2.神经网络的输入和输出  对于一个神经网络而言,它的输入和输出需在0到1之间,不能让某一个节点变的特别有影响力,我们这里...原创 2022-02-12 14:20:09 · 1107 阅读 · 0 评论 -
22 决策树
## 1.使用决策树的场景在应用决策树算法之前,必须满足以下要求:(1)决策树算法是典型的有监督学习,因此需要预分类目标变量。必须提供一个训练数据集,该数据集为算法提供目标变量的值。(2)训练数据集应当是丰富多样的,为算法提供涉及不同方面的记录类型,以适应未来的分类需求。以决策树学习为例,如果示例记录缺乏系统定义的子集,那么对这个子集进行分类和预测将会存在问题。(3)目标属性类必须是离散的。也就是说,决策树分析不适用于目标变量为连续型值的情况。当然,目标变量的值必须能明确界定属于或不属于某个特定的类原创 2022-02-12 14:17:00 · 1183 阅读 · 0 评论 -
19 捋一捋统计学里的概念
19 捋一捋统计学里的概念标签:机器学习与数据挖掘1.基本概念**变异:**在自然状态下,个体间测量结果的差异称为变异(variation),变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。**参数估计:**指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。2.t-检验...原创 2019-07-30 08:16:12 · 471 阅读 · 0 评论 -
19 多元线性回归与模型回归
19 多元线性回归与模型回归标签:机器学习与数据挖掘1.调整R2R^2R2 对于R2R^2R2,只要添加入新的参数,它就会变大,不过这个变量有没有用。而我们采用调整R2调整R^2调整R2来使得公式对无用变量有所惩罚:Radj2=1−(1−R2)n−1n−m−1R_{\mathrm{adj}}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-m-1}Ra...原创 2019-07-30 08:13:47 · 573 阅读 · 0 评论 -
08 主成分分析(进阶版)
08 主成分分析(进阶版)标签:机器学习与数据挖掘1.主成分定义 设随机向量XT=[X1,X2,...,XP]\mathbf{X}^{\text{T}}=\left[ X_1,X_2,...,X_P \right]XT=[X1,X2,...,XP] 有协方差矩阵乏,其特征值$\lambda _1\geqslant \lambda _2\geqslant …\geqslant \lam...原创 2019-04-27 16:30:12 · 501 阅读 · 0 评论 -
R语言手册(第三站 探索性数据分析)
R语言手册(第三站 探索性数据分析)标签: R语言1.读入房屋数据集,准备数据houses<-read.csv(file="C/……/houses. csv", stringsAsFactors = FALSE, header = FALSE)names(houses)<-c("MVAL","MINC","HA...原创 2019-04-24 13:05:25 · 703 阅读 · 0 评论 -
R语言手册(第三站 探索性数据分析)
R语言手册(第三站 探索性数据分析)标签: R语言1.读入chrn数据集churn <- d.csv(file = "C:/.../churn.txt", stringsAsFactors = TRUE)#显示前10条记录churn[1:10,]#总结客户流失变量sum.churn <- summary(churn$Churn)sum.churn#计算客户流失比...原创 2019-04-24 13:07:18 · 1764 阅读 · 0 评论 -
R语言手册(第二站 数据预处理)
R语言手册(第二站 数据预处理)标签: R语言1.读入数据集Cars和Cars2cars<read.csv("C:/./cars.txt",stringsAsFactors=FALSE)cars2<read.csv("C:/./cars2.txt",stringsAsFactors=FALSE)2.缺失数据#观察数据集cars中的4个变量cars.4var<-ca...原创 2019-04-24 13:08:07 · 1516 阅读 · 0 评论 -
R语言手册(第一站 概述)
R语言手册(第一站 概述)标签:R语言1.注释、缩进以及分号#符号开始的所有字符均为注释#注释不会被R执行,它们主要用于解释代码将要做什么事情#缩进代码(不是注释)只要处于同一行中,就将在R中执行#由分号隔开的代码将作为不同的行运行#使用分号表示行结束2.打开数据集并显示数据#使用你希望打开文件的准确位置替换“c….”cars <-read.csv(file="C:…/...原创 2019-04-24 13:09:13 · 871 阅读 · 0 评论 -
16回归方程的验证
标签:机器学习与数据挖掘(代码位置:《R语言手册 第八站 简单线性回归》。)1.回顾回归方程的意义 首先,我们指明回归方程的通式:y=β0+β1x+εy=\beta_{0}+\beta_{1} x+\varepsilony=β0+β1x+ε①β0\beta_0β0和β1\beta_1β1表示模型参数,分别对应截距和斜率。这些值是常量,其真实值未知,需要通过最小二乘估计从数据集中...原创 2019-07-30 08:04:56 · 4446 阅读 · 0 评论 -
17 向线性回归的转换
17向线性回归的转换标签:机器学习与数据挖掘1.获得线性变换 比如,有些变量的关系就不是线性关系,如果用线性回归的话,就会出问题。比如以下的情况: 可以进行对数表换之后,才好进行熟悉的线性回归。当然,我们这里介绍的是其中一种方法。那就是Frederick、Mosteller和Tukey在他们出版的Data Analysis and Regression一书中建议采用“凸规则”发现获得...原创 2019-07-30 08:07:17 · 993 阅读 · 0 评论 -
18 多元回归与模型回归
18 多元回归与模型回归1.总体多元回归的定义2.多元回归的指标 对于一个二元的线性回归:y^=b0+b1x1+b2x2\hat{y}=b_{0}+b_{1} x_{1}+b_{2} x_{2}y^=b0+b1x1+b2x2我们说它的残差是 %y-\hat{y}$,。在一元线性回归中,我们说这是实际数据点与回归线之间的垂直距离,在多元回归中,我们说这是数据点和回归平面(或超平...原创 2019-07-30 08:10:45 · 424 阅读 · 0 评论 -
(大数据分析学习)17、基本统计量矩阵的计算
样本均值矩阵和协方差矩阵相关系数矩阵变量线性组合的样本值原创 2018-09-28 11:08:38 · 1573 阅读 · 0 评论