
统计分析
文章平均质量分 76
拓端研究室TRL
这个作者很懒,什么都没留下…
展开
-
图像倾斜校正算法的MATLAB实现:图像倾斜角检测及校正
最近我们被客户要求撰写关于图像倾斜校正算法的研究报告,包括一些图形和统计输出。原创 2023-01-23 15:01:05 · 789 阅读 · 0 评论 -
基于r语言的疾病制图中自适应核密度估计的阈值选择方法案例
背景诸如核密度估计(KDE)的平滑方法被用于控制用于计算每种疾病率的空间支持的群体基础。平滑程度由用户定义的参数(带宽或阈值)控制,该参数影响疾病图的分辨率和计算的速率的可靠性。已经提出了用于自动选择平滑参数(诸如正常比例,插件和平滑交叉验证带宽选择器)的方法以用于非空间数据,但是它们的相对效用仍然是未知的。方法内核,带宽的大小,是影响在KDE [在地图上的平滑的程度的关键参数 ]。...原创 2019-06-12 14:10:35 · 1232 阅读 · 1 评论 -
R语言数据清理:视频游戏数据案例研究
Wesnoth之战是一款开源的回合制策略游戏。游戏世界很丰富,有几个派系,地图和数百个可用单位。在本教程中,您将学习如何将中等大小的数据集(如游戏元数据)转换为有用的格式,以便使用R进行进一步分析。您将了解整洁数据集遵循的关键原则,为什么跟踪它们有用,以及如何清理您给出的数据。整理也是了解新数据集的好方法。最后,在本教程中,您将学习如何编写一个函数,使您的分析看起来更清晰,并允许您以非常可...原创 2019-06-12 14:08:03 · 409 阅读 · 0 评论 -
卡尔曼滤波器:用R语言中的KFAS建模时间序列
于时间序列预测,ARIMA等传统模型通常是一种流行的选择。虽然这些模型可以证明具有高度的准确性,但它们有一个主要缺点 - 它们通常不会解释“冲击”或时间序列的突然变化。让我们看看我们如何使用称为卡尔曼滤波器的模型来潜在地缓解这个问题。时间序列我们以货币市场为例。货币对可能会有整体上升趋势,然后在抛售期间大幅下跌。传统的时间序列模型不一定能够立即解决这个问题,并且在考虑到趋势的突然变...原创 2019-06-12 14:06:49 · 2383 阅读 · 0 评论 -
R语言使用K-Means聚类可视化纽约市WiFi访问
可视化已成为数据科学在电信行业中的关键应用。具体而言,电信分析高度依赖于地理空间数据的使用。这是因为电信网络本身在地理上是分散的,并且对这种分散的分析可以产生关于网络结构,消费者需求和可用性的有价值的见解。数据为了说明这一点,使用k均值聚类算法来分析纽约市免费公共WiFi的地理数据。该数据集可从NYC Open Data获得。具体地,k均值聚类算法用于基于与特定提供商相关联的纬度和...原创 2019-06-12 14:04:31 · 1199 阅读 · 2 评论 -
R语言参数检验 :需要多少样本?如何选择样本数量
参数检验受制于数据属性的假设。例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。将正态分布拟合到采样均值为了研究满足学生t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布...原创 2019-06-12 14:20:37 · 4052 阅读 · 0 评论 -
R语言实现拟合神经网络; 神经网络包
神经网络一直是迷人的机器学习模型之一,不仅因为花哨的反向传播算法,而且还因为它们的复杂性(考虑到许多隐藏层的深度学习)和受大脑启发的结构。神经网络并不总是流行,部分原因是它们在某些情况下仍然存在计算成本高昂,部分原因是与支持向量机(SVM)等简单方法相比,它们似乎没有产生更好的结果。然而,神经网络再一次引起了人们的注意并变得流行起来。在这篇文章中,我们将使用neuralnet包装拟合一个...原创 2019-06-12 14:19:52 · 9203 阅读 · 2 评论 -
R语言进行数值模拟:模拟泊松回归模型的数据
模拟回归模型的数据验证回归模型的首选方法是模拟来自它们的数据,并查看模拟数据是否捕获原始数据的相关特征。感兴趣的基本特征是平均值。我喜欢这种方法,因为它可以扩展到广义线性模型(logistic,Poisson,gamma,...)和其他回归模型,比如t-regression。这是Gelman和Hill在回归文本中的内容。1可悲的是,从R中回归模型模拟数据的默认方法错过什么人可能会考虑模型不确...原创 2019-06-12 14:18:21 · 3335 阅读 · 0 评论 -
R语言有RStan的多维验证性因子分析(CFA)
如果您已经熟悉RStan,那么您需要组合的基本概念是具有相关随机斜率和异方差误差的标准多级模型。我将R代码嵌入到演示中。所需的包是lavaan,lme4和RStan。我喜欢将大多数统计方法理解为回归模型。这样,很容易理解大量技术背后的主张。这是一种适用于多级,SEM和IRT模型的方法。在这里,我将重点关注验证性因子分析(CFA),因此我将首先从一个易于适用于任何多级回归软件的模型开发CFA...原创 2019-06-12 14:16:46 · 2560 阅读 · 1 评论 -
R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验分析案例报告
统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。什么是列联表?列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2×22×2频率表,由两个变量产生,每个变量有两个级别:组/观察 观察1 观察2 第1组 ñ1,1ñ1,1 ñ1,2ñ1...原创 2019-06-12 14:15:09 · 14918 阅读 · 1 评论 -
R语言高维数据的pca、 t-SNE算法降维与可视化分析案例报告
维度降低有两个主要用例:数据探索和机器学习。它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本。然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值)。对于机器学习,降维是有用的,因为在拟合过程中使用较少的特征时,模型通常会更好地概括。在这篇文章中,我们将研究三维降维技术:主成分分析(PCA):最流行的降维方法 内核PCA:PCA的一种变体,允许非线...原创 2019-06-12 14:13:29 · 6015 阅读 · 1 评论