
概念和理论
文章平均质量分 61
数据分析是指使用统计学和计算机科学的方法,对收集到的数据进行处理、分析和解释,以发现数据中隐藏的信息、关系和趋势,从而获得有意义的结论和决策支持。数据分析通常包括数据清洗、数据探索、数据建模和数据可视化等环节,数据分析可以帮助企业和组织提高效率、减少成本、增加收益、降低风险等。
rubyw
Data Analyst
让我们一起愉快地搞数据分析吧!
展开
-
数据分析中:相关系数计算方法怎么选择合适?
综上所述,选择合适的相关系数计算方法需要综合考虑数据类型、分布特点、变量关系以及样本大小等因素。在实际应用中,可以尝试多种方法,比较不同方法得到的结果,并结合专业知识和实际情况进行判断和解释。原创 2024-09-13 18:09:49 · 1781 阅读 · 0 评论 -
给指标打权重的几大方法
给指标打权重的方法有很多,选择适当的方法取决于具体的应用场景和数据特点。通过合理分配权重,可以提高模型的准确性和解释性。原创 2024-07-04 23:46:29 · 1897 阅读 · 0 评论 -
生存分析(Survival Analysis)的介绍和解释
生存分析(Survival Analysis)是一种统计方法,用于分析和预测特定事件的发生时间,通常用于医疗研究、工程可靠性、金融风险管理等领域。生存分析的主要目标是研究时间到事件(如死亡、故障、违约等)发生的时间分布。原创 2024-07-03 00:18:22 · 1248 阅读 · 0 评论 -
混淆矩阵及ROC曲线、AUC的介绍及其用法
ROC曲线(Receiver Operating Characteristic Curve)以真正例率(True Positive Rate,TPR)为纵轴,假正例率(False Positive Rate,FPR)为横轴,描述了在不同阈值下模型的分类性能。: 通过混淆矩阵,你可以计算模型的准确率、召回率、精确度和F1分数等指标,帮助你了解模型的预测表现,比如模型是否更容易将恶性肿瘤错判为良性(FP)还是将良性肿瘤错判为恶性(FN)。AUC值是比较不同模型性能的重要指标,值越高的模型通常更优秀。原创 2023-12-25 17:07:28 · 264 阅读 · 0 评论 -
时间序列分析算法的概念、模型检验及应用
ARIMA(Autoregressive Integrated Moving Average)模型是一种常用于处理平稳和非平稳时间序列的模型。ARIMA模型的三个组成部分分别是自回归项(AR)、差分项(I)和移动平均项(MA)。时间序列分析是一种用于研究随时间变化的数据模式和趋势的统计方法。时间序列分析的目标是从过去的观测中提取信息,以便预测未来的趋势。在实际应用中,选择合适的模型和检验方法取决于数据的性质和特点,以及分析的具体目的。不同的行业和领域可能需要使用不同的时间序列分析工具和技术。原创 2023-11-23 17:23:32 · 1385 阅读 · 0 评论 -
聚类算法模型的概念、评估及应用
聚类是一种无监督学习方法,其目标是将数据集中的样本分成不同的组别,使得同一组内的样本相似度较高,而不同组之间的样本相似度较低。聚类算法模型通常通过计算样本之间的相似度或距离来实现这一目标。原创 2023-11-23 16:30:32 · 202 阅读 · 0 评论 -
多元逻辑回归模型的概念、模型检验以及应用
多元逻辑回归是逻辑回归的一种扩展,用于处理多类别分类问题。在二元逻辑回归中,我们通过一个逻辑函数(也称为S形函数)将输入特征映射到一个概率值,用于预测两个类别中一个的概率。而在多元逻辑回归中,我们面对的是有多个类别的情况,通常使用 softmax 函数来处理多个类别。在这些应用中,我们通常需要将输入数据分为多个类别,并预测新的样本属于这些类别中的哪一个。在实际应用中,为了提高模型性能,可以采用特征工程、正则化等方法,同时需要对模型进行充分的评估和验证,例如使用交叉验证来评估模型的泛化能力。原创 2023-11-23 15:28:56 · 2082 阅读 · 0 评论 -
多元线性回归模型的自变量进入方式和模型假设检验
这些检验规则是在统计学上通常用于验证线性回归模型的假设和质量的方法。需要注意的是,这些规则并不是一成不变的,有时候需要根据具体的问题和数据特点做出适当的调整。模型检验的目的是确保模型对数据的拟合是合理的,并且所做的推断是可靠的。逐步回归可以在较短的时间内找到一个相对较好的模型,而全部变量回归可以提供更全面的模型选择。然而,需要注意的是,逐步回归容易受到过拟合的影响,因此在选择自变量时需要谨慎。线性回归模型的检验主要涉及对模型拟合的质量、残差的性质以及模型假设的验证。原创 2023-11-23 11:12:14 · 978 阅读 · 0 评论 -
连续变量降维:主成分分析和因子分析
主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)都是用于处理连续变量降维的统计方法,它们在数据分析和特征提取中经常被使用。尽管它们有一些相似之处,但它们的目标、假设和应用有一些不同之处。原创 2023-11-22 17:11:00 · 916 阅读 · 0 评论 -
线性回归的正则方法:岭回归和Lasso
选择使用岭回归还是Lasso回归通常取决于问题的性质和数据的特点。如果你认为在模型中存在许多相关的特征,且不希望它们的权重过大,可以尝试使用岭回归。在实际应用中,还可以使用弹性网络(Elastic Net),它综合了岭回归和Lasso回归的特点。请注意,这只是一个简单的例子,实际上,选择合适的超参数值是一个需要仔细调整的任务。在Python中,可以使用Scikit-learn库进行岭回归和Lasso回归的实现。让我们通过一个简单的例子来说明岭回归和Lasso回归的应用。原创 2023-11-22 15:47:12 · 196 阅读 · 0 评论 -
最小二乘估计及与极大似然估计的关系
最小二乘估计(Least Squares Estimation)和极大似然估计(Maximum Likelihood Estimation)是统计学中常用的参数估计方法,它们在某些情况下是等价的,但在一般情况下并不总是相同的。原创 2023-11-22 15:29:45 · 718 阅读 · 0 评论 -
单变量影响度分析和两变量关联性检验
双变量单变量原创 2023-11-22 15:19:30 · 145 阅读 · 0 评论 -
数据仓库及ETL的理论基础
它是一个集成的、主题导向的、时间变化的、非易失性的数据集合,用于支持企业的决策制定过程。在实际应用中,ETL 过程通常是周期性执行的,以保持数据仓库中的数据与源系统中的数据同步。:在抽取的数据基础上进行清洗、转换和整合,以确保数据的一致性和质量。转换的目标是将数据转化为适合存储在数据仓库中的格式,并确保数据的准确性。数据仓库通常包含来自多个源系统的数据,这些数据经过清洗、转换和加载(ETL)的过程,然后存储在数据仓库中。加载的过程需要考虑数据的完整性和一致性,确保数据仓库中的数据是可信赖的。原创 2023-11-21 17:25:13 · 137 阅读 · 0 评论 -
数据分析:数据预处理流程及方法
在进行数据预处理时,具体的方法和规则可能会根据数据的特性、问题的性质以及分析的目标而有所不同。选择合适的数据预处理方法对于获得可靠的分析结果至关重要。数据预处理是数据分析过程中至关重要的一步,它涉及到清洗、转换和整理原始数据,以便更好地适应分析模型或算法。实际应用中,你可能需要根据具体情况采用多个方法的组合,以确保数据质量和适应分析的需求。当进行数据预处理时,具体的方法和规则会取决于数据的特征和问题的性质。如果缺失值占比较小,并且对整体数据影响有限,可以考虑直接删除包含缺失值的行或列。原创 2023-11-21 17:20:23 · 17781 阅读 · 0 评论 -
相关系数和协方差的关系与区别
相关系数和协方差都是用来衡量两个变量之间关系的统计量,它们在描述变量之间的线性关系上提供了一些信息。相关系数的正负表示变量之间的方向性关系,正相关表示正向关系,负相关表示负向关系。协方差的量纲是变量 X 和 Y 的乘积,因此它的数值大小受到变量尺度的影响。相关系数通过标准化,消除了量纲的影响。总的来说,相关系数相对于协方差更具有解释性,因为它提供了一个标准化的度量,使得不同数据集之间的比较更为方便。协方差的取值范围在负无穷到正无穷,而相关系数的取值范围在 -1 到 1 之间,使得相关系数更容易解释。原创 2023-11-17 16:59:14 · 2743 阅读 · 0 评论 -
假设检验方法: t 检验、z 检验、卡方检验、ANOVA(方差分析)
这些假设检验方法在不同情境下有不同的应用,选择合适的方法通常取决于研究问题和数据的特性。在进行假设检验时,研究人员需要设置显著性水平(通常为0.05)来决定是否拒绝原假设,同时考虑统计检验的统计量和临界值。: 假设你想研究一种新药对患者血压的影响。现在,你可以使用配对样本 t 检验来比较两组血压数据,看看在服药前后是否存在显著的差异。: 假设你在不同教学方法下测试了三组学生的考试成绩,你想知道这三组的平均成绩是否存在显著差异。使用独立样本 z 检验可以帮助你确定两组样本的平均身高是否存在显著性差异。原创 2023-11-17 16:53:04 · 3161 阅读 · 0 评论 -
假设检验的介绍及案例
在假设检验中,我们提出一个关于总体的假设,并利用样本数据来评估这个假设的合理性。根据计算得到的概率,如果小于或等于显著性水平 (α ),我们拒绝零假设。在这个例子中,如果观察到的概率小于0.05,我们可能会得出结论:我们有足够的证据拒绝硬币是公平的这一零假设。使用二项分布检验,我们可以计算二项分布的概率质量函数,看在假设 (p = 0.5) 的情况下,观察到55次正面朝上的概率有多大。如果在显著性水平 (\α = 0.05) 下,观察到的概率小于或等于α ,我们拒绝零假设。描述研究者想要进行检验的假设。原创 2023-11-17 13:59:42 · 673 阅读 · 0 评论 -
最大似然估计的介绍
最大似然估计(Maximum Likelihood Estimation,简称MLE)是一种用于估计概率分布中参数的方法。该方法的核心思想是选择使得观察到的数据在给定模型下出现的概率最大的参数值作为估计值。最大似然估计具有很好的性质,包括渐进正态性和有效性。它在统计推断和机器学习等领域中被广泛应用,用于估计模型的参数。需要注意的是,最大似然估计的结果可能受到样本大小和模型假设的影响,因此在应用时需要谨慎考虑这些因素。原创 2023-11-17 12:32:34 · 179 阅读 · 0 评论 -
参数估计和非参数估计
参数估计是统计学中的一个重要概念,它涉及到使用样本数据来估计总体参数的过程。在统计学中,总体是指研究对象的整体集合,而样本是从总体中抽取的部分元素。参数估计有两种主要方法:点估计和区间估计。点估计是通过样本数据来估计总体参数的单一数值。常见的点估计方法包括(Maximum Likelihood Estimation,简称MLE)和最大似然估计通过寻找使得样本观察到的概率最大的参数值来估计参数。矩估计则是通过样本矩(样本的原点矩和中心矩)与总体矩之间的匹配来估计参数。原创 2023-11-17 12:26:57 · 1514 阅读 · 0 评论 -
置信区间的介绍和使用:置信水平、显著性水平、临界值
计算置信区间的具体方法通常取决于所选择的统计分布以及所使用的估计方法。在正态分布下,以样本均值为中心的置信区间的计算是比较常见的,尤其是当样本大小足够大时,根据中心极限定理,样本均值的分布接近正态分布。使用标准正态分布的临界值,可以在正态分布的 z 表或使用统计软件进行查找。对于双侧置信区间,我们通常查找两侧面积各为 α/2的临界值。这表示我们有95%的信心认为总体均值落在34到36之间。需要注意,这个方法假设样本来自正态分布,如果样本不服从正态分布,而样本大小又较小,可能需要使用 t 分布进行估计。原创 2023-11-17 11:26:54 · 27479 阅读 · 0 评论 -
中心极限定理
中心极限定理的实质是说明了在一定条件下,随机变量的和或均值的分布趋向于正态分布,而不论原始分布的形状如何。这一定理在统计学中广泛应用,尤其在推断统计学中,许多统计方法的合理性都依赖于样本容量较大时中心极限定理的成立。中心极限定理是统计学中的一个基本定理,它描述了在满足一定条件的情况下,独立随机变量的均值的分布会在样本容量足够大时趋近于正态分布。中心极限定理有两种常见的表述:独立同分布的情况下的中心极限定理和不一定独立同分布但具有有限方差的情况下的极限定理。原创 2023-11-17 11:12:50 · 185 阅读 · 0 评论 -
常见的业务分析方法
由于数据维度的丰富性,不知从哪个维度开始分析,如果每个维度都尝试下探非常耗时。这时可以考虑。原创 2023-11-16 11:11:10 · 232 阅读 · 0 评论 -
数据分析的流程:CRISP-DM方法和SEMMA方法
CRISP-DM方法SEMMA方法角色与职责:EDIT数字化模型原创 2023-11-14 16:47:55 · 147 阅读 · 0 评论