
大数据挖掘与分析
文章平均质量分 81
纸境止境
暂无
展开
-
33 基本统计知识——单项非参数检验
1.卡方检验的目的及其基本思想文章目录1.卡方检验的目的及其基本思想2.二项分布检验3.游程检验4.单样本K-S检验(Kolmogorov-Smirnov) 卡方检验的目的就是通过样本数据的分布来检验总体分布与期望分布或某一理论分布是否一致,零假设是样本的总体分布与期望分布或某一理论分布无显著差异。 卡方检验基本思想是,如果从一个随机变量XXX中随机抽取若干个观察样本,当这些样本落在XXX的kkk个互不相关的子集中的观察频数服从一个多项分布,当kkk趋于无穷时,这个多项分布服从卡方分布,根据这个思原创 2022-05-08 23:40:03 · 614 阅读 · 0 评论 -
32 基本统计知识——假设检验
1.假设检验的一般步骤(1)提出零假设(Ho)。根据检验的目标,对需要检验的最终结果提出一个零假设。(2)选择检验统计量。假设检验中,总是通过计算检验统计量的概率值进行判断,这些统计量服从或近似服从已知的某种分布,常用的有t分布、F分布等。(3)计算检验统计量观测值发生的概率。在认为零假设成立的前提下,计算检验统计量观测值发生的概率,记为p,概率p值就是在零假设成立的前提下样本值发生的概率,对此可以根据一定的标准来判定其发生的概率是否是小概率。(4)给定显著性水平,做出判断。显著性水平指零假原创 2022-05-08 23:38:06 · 9409 阅读 · 0 评论 -
29 机器学习中常常提到的正则化到底是什么意思
29 机器学习中常常提到的正则化到底是什么意思标签:机器学习与数据挖掘来源:https://www.zhihu.com/question/20924039/answer/131421690陶轻松机器学习痴呆爱好者2,330 人赞同了该回答我尽量用通俗一点的话来解答一下楼主的问题, r(d)r(d)r(d)可以理解为有 d 的参数进行约束,或者 D 向量有d个维度。咱们将楼主的给的凸优化结构细化一点,别搞得那么抽象,不好解释。min{1N∑i=1N(yi−f(xi))2+r(d)}\mi原创 2022-04-28 10:42:07 · 160 阅读 · 0 评论 -
30 范数
标签:机器学习与数据挖掘1.p-范数0范数,向量中非零元素的个数。1范数,为绝对值之和。2范数,就是通常意义上的模。∣∣X∣∣p=(∑i=1N∣xi∣p)1p||\mathbf{X||}_{\text{p}}=\left( \sum_{\text{i}=1}^{\text{N}}{|\text{x}_{\text{i}}|^{\text{p}}} \right) ^{\frac{1}{\text{p}}}∣∣X∣∣p=(i=1∑N∣xi∣p)p1 向量元素绝对值p次方的 1p原创 2022-04-28 10:40:03 · 162 阅读 · 0 评论 -
31 基本统计概念
标签:机器学习与数据挖掘1.集中趋势的描述指标①算数均数(Arithmetic Mean):总体均数用希腊字母μ\muμ表示,样本均数常用Xˉ\bar{X}Xˉ。②中位数 (Median):将全体数据按大小排列,取在整个数列中最中间的位置的那个值。③几何均数(Geometric Mean):使用字母G表示,适用于原始数据分布不对称,但经过对数转换呈分布的资料④截尾均数(Trimmed Mean):考虑去掉两端比较极端的数。再计算平均数。2.离散趋势的描述指标①极差(Range):全组内数据中最原创 2022-04-28 10:38:42 · 1038 阅读 · 0 评论 -
28 模型评估技术
标签:机器学习与数据挖掘(此部分不熟悉的话,可以返回看本系列博客各大章节的内容。每一种方法后面都讲到了评估模型的过程,更加详细的可以回头看,这里做一个概念梳理和汇总。)  在这一系列的博客开始之前,我们知道,跨行业数据挖掘标准流程包括以下6个阶段:(1)业务理解阶段(2)数据理解阶段(3)数据准备阶段(4)建模阶段(5)评估阶段(6)部署阶段  之前我们的博客都围绕着建模来展开的,现在我们进入讨论对模型的评估阶段。原创 2022-04-17 12:02:52 · 633 阅读 · 0 评论 -
27贝叶斯分类(三)
标签:机器学习与数据挖掘## 1. 贝叶斯信念网络  朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。  所以,我们使用贝叶斯信念网络(Bayesian Belief Network,BBN)或者直接叫做贝叶斯网原创 2022-04-17 12:01:50 · 842 阅读 · 0 评论 -
贝叶斯分类(二)
标签:机器学习与数据挖掘## 1.数据平衡  在欺诈调查中,如果数据集中仅有一小部分事务存在欺诈问题,则算法将会简单地忽略此类事务,仅考虑无欺诈事务,这样做的正确率仍然能够达到99.99%。但是,这样的话,就没法打到我们的目的。因此,平衡采样方法可用于缩小出现在训练数据中的目标类的差距。我们可以选择采用的两种数据平衡的办法:- 重采样稀疏记录- 取消部分非稀疏记录(这个博客系列里,我们就暂时只考虑这两种方法,更多的可以参阅:https://www.leiphon原创 2022-04-17 12:00:47 · 614 阅读 · 0 评论 -
25 贝叶斯分类(一)
标签:机器学习与数据挖掘## 1.简单贝叶斯定理  令A和B为样例空间中的事件。$P(A|B)$(在B发生的条件下,A发生的概率)的条件概率定义如下:$$P(A | B)=\frac{P(A \cap B)}{P(B)}=\frac{A与B的交集结果}{B的结果}$$  同样,$P(B | A)=\frac{P(A \cap B)}{P(A)}$。现在,对交集重新表示,我们有$P(A \cap B)=P(B | A) \cd原创 2022-02-18 10:17:56 · 839 阅读 · 0 评论 -
24 二分逻辑回归
## 1.逻辑回归特点  In logistic regression, a line L1 defines a probability distribution over the input space. A line L1 is said to be better than line L2, if the the distribution defined by L1 is low at class ‘-1’ points and high at class ‘+1’原创 2022-02-12 15:35:40 · 807 阅读 · 0 评论 -
23 神经网络(使用R)
## 1.神经网络特点(1)可以充分逼近任意复杂的非线性关系;(2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;(3)采用并行分布处理方法,使得快速进行大量运算成为可能;(4)可学习和自适应不知道或不确定的系统;(5)能够同时处理定量、定性知识。(6)神经网络对于噪声数据有较强的鲁棒性。## 2.神经网络的输入和输出  对于一个神经网络而言,它的输入和输出需在0到1之间,不能让某一个节点变的特别有影响力,我们这里...原创 2022-02-12 14:20:09 · 1107 阅读 · 0 评论 -
22 决策树
## 1.使用决策树的场景在应用决策树算法之前,必须满足以下要求:(1)决策树算法是典型的有监督学习,因此需要预分类目标变量。必须提供一个训练数据集,该数据集为算法提供目标变量的值。(2)训练数据集应当是丰富多样的,为算法提供涉及不同方面的记录类型,以适应未来的分类需求。以决策树学习为例,如果示例记录缺乏系统定义的子集,那么对这个子集进行分类和预测将会存在问题。(3)目标属性类必须是离散的。也就是说,决策树分析不适用于目标变量为连续型值的情况。当然,目标变量的值必须能明确界定属于或不属于某个特定的类原创 2022-02-12 14:17:00 · 1183 阅读 · 0 评论 -
(大数据分析学习)14、广义方差
原创 2018-09-07 15:17:38 · 3448 阅读 · 3 评论 -
17 向线性回归的转换
17向线性回归的转换标签:机器学习与数据挖掘1.获得线性变换 比如,有些变量的关系就不是线性关系,如果用线性回归的话,就会出问题。比如以下的情况: 可以进行对数表换之后,才好进行熟悉的线性回归。当然,我们这里介绍的是其中一种方法。那就是Frederick、Mosteller和Tukey在他们出版的Data Analysis and Regression一书中建议采用“凸规则”发现获得...原创 2019-07-30 08:07:17 · 993 阅读 · 0 评论 -
18 多元回归与模型回归
18 多元回归与模型回归1.总体多元回归的定义2.多元回归的指标 对于一个二元的线性回归:y^=b0+b1x1+b2x2\hat{y}=b_{0}+b_{1} x_{1}+b_{2} x_{2}y^=b0+b1x1+b2x2我们说它的残差是 %y-\hat{y}$,。在一元线性回归中,我们说这是实际数据点与回归线之间的垂直距离,在多元回归中,我们说这是数据点和回归平面(或超平...原创 2019-07-30 08:10:45 · 424 阅读 · 0 评论 -
19 多元线性回归与模型回归
19 多元线性回归与模型回归标签:机器学习与数据挖掘1.调整R2R^2R2 对于R2R^2R2,只要添加入新的参数,它就会变大,不过这个变量有没有用。而我们采用调整R2调整R^2调整R2来使得公式对无用变量有所惩罚:Radj2=1−(1−R2)n−1n−m−1R_{\mathrm{adj}}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-m-1}Ra...原创 2019-07-30 08:13:47 · 573 阅读 · 0 评论 -
19 捋一捋统计学里的概念
19 捋一捋统计学里的概念标签:机器学习与数据挖掘1.基本概念**变异:**在自然状态下,个体间测量结果的差异称为变异(variation),变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。**参数估计:**指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种方法:点估计和区间估计。2.t-检验...原创 2019-07-30 08:16:12 · 471 阅读 · 0 评论 -
21.k最近邻算法
21.k最近邻算法(本篇R代码对应本系列博客《17 R语言手册(第十站 k均值)》。)1.距离函数 数据分析师定义距离度量来计算相似性。距离度量或距离函数由实值函数d定义,例如对任一坐标x、y和z,有如下性质:(1)d(x,y)⩾0,当且仅当x=y时,d(x,y)=0。d(x, y) \geqslant 0,当且仅当x=y时,d(x,y)=0。d(x,y)⩾0,当且仅当x=y时,d(x,...原创 2019-10-11 14:31:51 · 310 阅读 · 0 评论 -
16回归方程的验证
标签:机器学习与数据挖掘(代码位置:《R语言手册 第八站 简单线性回归》。)1.回顾回归方程的意义 首先,我们指明回归方程的通式:y=β0+β1x+εy=\beta_{0}+\beta_{1} x+\varepsilony=β0+β1x+ε①β0\beta_0β0和β1\beta_1β1表示模型参数,分别对应截距和斜率。这些值是常量,其真实值未知,需要通过最小二乘估计从数据集中...原创 2019-07-30 08:04:56 · 4446 阅读 · 0 评论 -
09 因子分析(基础版)
09 因子分析(基础版)(此篇的R代码对应本博客系列《11 R语言手册(第四站 降维方法)》)标签: 机器学习与数据挖掘1.检验相关性 ①使用KMOI样本重组度的测量值:表示由隐含因子造成的在各个被标准化的指示变量中有共同变化的比率。当KMO比率小于0.50时,说明用因子分析法不合适。 ②假设检验Bartlett’s test of Sphericity:此检验的假设是,相关性矩阵是...原创 2019-05-23 10:14:27 · 631 阅读 · 0 评论 -
15 离群点和高杠杆率点
15 离群点和高杠杆率点标签:机器学习与数据挖掘1.离群值 离群值的标准残差的据绝对值非常大,我们研究的时候可以单独把这类值来出来看一下,以使我们的预测模型的不会受到太大干扰。 那我们如何揪出离群值呢?看图这里有两个特别离群的点,他们的残差都比一般的值要大一些。但是对于不同的变量,就有不同的度量和方差,我们需要将它们标准化,这样就有了标准残差。 令Si,residS_{i, \...原创 2019-05-23 10:04:12 · 7518 阅读 · 1 评论 -
(大数据分析学习)20、多元正态分布抽样与极大似然估计
联合密度函数 假定p×1向量X1,X2,…,Xn。是一个来自均值向量为μ和协方差矩阵为∑的多元正态总体的随机样本。由于X1,X2,…,X。是相互独立的,且每个为N。(μ,∑)分布,所有观测结果的联合密度函数是边缘正态密度之积:似然函数当可得到观测结果的数值时,它们可以代入式(4-11)中的x。对于观测结果x1,x.…,x,固定的集合,所得表达式作为u和的一个函数,称为似然函数。(暂时...原创 2018-10-25 16:56:10 · 2168 阅读 · 0 评论 -
(大数据分析学习)17、基本统计量矩阵的计算
样本均值矩阵和协方差矩阵相关系数矩阵变量线性组合的样本值原创 2018-09-28 11:08:38 · 1573 阅读 · 0 评论 -
(大数据分析学习)16、标准化变量的广义样本方差和总样本方差
标准化变量的广义方差:总体样本方差:原创 2018-09-23 21:46:49 · 2810 阅读 · 1 评论 -
(大数据分析学习)15、深入学习广义方差
广义方差为零的时候原创 2018-09-23 21:41:25 · 968 阅读 · 0 评论 -
(大数据分析、多元统计分析学习笔记)01、基本概念
(整理自有道云笔记)本笔记是笔者自我学习书本《实用多元统计分析》时整理到的要点,文中的叙述多来自书本,加以自己的思考和批注,有助于对这门课程的巩固和学习。...原创 2018-07-16 12:37:54 · 3924 阅读 · 2 评论 -
(大数据分析)02、图解统计量
原创 2018-07-16 12:40:47 · 237 阅读 · 0 评论 -
(大数据分析)04、随机向量
原创 2018-07-16 12:46:10 · 540 阅读 · 2 评论 -
(大数据分析)03、统计距离
原创 2018-07-16 12:43:05 · 1445 阅读 · 0 评论 -
(大数据分析学习)22 切比雪夫、曼哈顿、欧几里德、闵可夫斯基、马哈拉诺比斯距离解释收集
本文从公式上表述了欧几里得距离、曼哈顿距离、切比雪夫距离记忆闵可夫斯基距离之间的关系。收集整理的资料大多来自于书本和网络。首先是书中的解释:一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到...转载 2018-11-24 22:04:23 · 7527 阅读 · 0 评论 -
07 主成分分析(基础版)
07 主成分分析(基础版)标签:机器学习与数据挖掘(首先,内容整理自网络和书本,只是基础版本,不够深入,可以参考完本文之后,可以移步至《08 主成分分析(进阶版)》再去看看这里省略掉的细节和所需要用到的代码。)1.Z-score 标准化 首先,在主成分分析之前,对数据进行标准化,用Zi\text{Z}_{\text{i}}Zi来代表规范化后的变量的变量。当然,将其标准化并...原创 2019-04-27 16:28:43 · 482 阅读 · 0 评论 -
08 主成分分析(进阶版)
08 主成分分析(进阶版)标签:机器学习与数据挖掘1.主成分定义 设随机向量XT=[X1,X2,...,XP]\mathbf{X}^{\text{T}}=\left[ X_1,X_2,...,X_P \right]XT=[X1,X2,...,XP] 有协方差矩阵乏,其特征值$\lambda _1\geqslant \lambda _2\geqslant …\geqslant \lam...原创 2019-04-27 16:30:12 · 501 阅读 · 0 评论 -
14 最小二乘估计原理推导和线性回归的外推等
14 最小二乘估计原理推导和线性回归的外推等标签:机器学习与数据挖掘1.简单最小二乘估计的推导 先说个历史:最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小。 首先我们有基本的线性回归模型:y^=β0+β1x+ε\hat{y}=\beta_...原创 2019-05-23 09:58:47 · 4848 阅读 · 0 评论 -
13 交叉验证
13 交叉验证标签:机器学习与数据挖掘1.交叉验证概述 若不采用正确的方法,数据挖掘将成为数据淤积,数据挖掘分析人员发现的是虚幻的结果,来自于随机变化而不是真正的影响。因此,至关重要的是数据挖掘人员需要避免数据淤积。实现这一目标的方法是通过交叉验证。 交叉验证是一种技术,用于确保通过分析所发现的结果对独立的、未见的数据集具有一般性。在数据挖掘中,大多数常见的方法是两折交叉验证或k折交叉...原创 2019-05-23 09:54:13 · 469 阅读 · 0 评论 -
12 均值的假设检验
12 均值的假设检验标签: 机器学习与数据挖掘1.假设检验基本概念 假设检验是指使用样本中的证据来断言总体参数值的过程。针对参数值,精心设计了两种矛盾的声明或假设。具体如下:零假设H0H_0H0是原假设,表示参数值已经假定的内容。另一种假设或研究假设HaH_aHa表示参数值的另一个断言。两种可能的结论是 (a)(a)(a) 拒绝 H0H_0H0 和 (b)(b)(b) 不拒绝...原创 2019-05-23 09:52:27 · 3059 阅读 · 0 评论 -
11.1 p值的意义
11.1 如何看待 Nature《科学家们起来反对统计显著性》一文,对统计意义的误解源头真的是 p 值吗?标签:机器学习与数据挖掘作者:孟浩巍原文链接:https://www.zhihu.com/question/317252051/answer/633033538?utm_oi=50144498155520是知乎上面的答案 写的很好啊198 人赞同了该回答不必过度解读,几乎每过两年就...转载 2019-05-23 09:48:53 · 1204 阅读 · 0 评论 -
11 单变量分析
11 单变量分析标签: 机器学习与数据挖掘1.统计推理与数据挖掘 从数据挖掘器的角度考虑。我们面对一个可能并不熟悉的数据集。对于该数据集我们已经完成了数据理解和数据准备阶段并且使用探索性数据分析收集了一些描述性信息。下一步,我们将要执行单变量估计和预测。常见的执行估计和预测的工具为统计推理。统计推理包含一些方法,它们基于包含在样本中的信息,对总体特征进行估计和假设检验。总体指的是在一个特定...原创 2019-05-23 09:45:23 · 2027 阅读 · 0 评论 -
10 因子分析(进阶版)
10 因子分析(进阶版)标签: 机器学习与数据挖掘1.因子分析定义 有p个成分的观测随机向量X,有均值μ\boldsymbol{\mu}μ和协方差矩阵Σ\boldsymbol{\varSigma}Σ。因子模型要求X是线性依赖于几个不能观测的称之为公共因子的随机变量F1,F2,...,FmF_1,F_2,...,F_mF1,F2,...,Fm和p个附加的称之为误差或有时也称为特殊因子的...原创 2019-05-23 09:35:54 · 865 阅读 · 0 评论 -
(大数据分析学习)05、矩阵的基本概念
原创 2018-09-06 15:17:36 · 831 阅读 · 0 评论