Scipy统计分布

一、认识Scipy基础函数

        SciPy 是一个基于 Python 的开源库,主要用于科学和技术计算。它提供了许多模块,涵盖了从线性代数、优化、积分到统计和信号处理等多种功能。

        scipy.constants:提供物理和化学中的常量,例如光速、重力加速度等。

        scipy.integrate:提供数值积分和求解微分方程的功能。

                quad:用于计算一元函数的定积分。

      dblquad:计算二元函数的双重积分。

      tplquad:计算三元函数的三重积分。

      odeint:用于求解常微分方程。

        scipy.optimize:提供优化算法,包括求解最小值、最大值、方程根等。

                minimize:用于无约束或多约束优化问题。

      minimize_scalar:求解标量函数的优化问题。

      root:用于求解非线性方程组。

      curve_fit:拟合数据到给定的函数模型。

        scipy.interpolate:提供插值功能,用于在数据点之间估计值。

                interp1d:一维插值。

      griddata:多维插值。

      Rbf:径向基函数插值。

        scipy.stats:提供统计函数和概率分布。

                norm:正态分布。

      t:t 分布。

      kstest:Kolmogorov-Smirnov 检验。

        scipy.linalg:提供线性代数函数,包括矩阵分解、求解线性方程组等。

                inv:矩阵求逆。

      solve:求解线性方程组。

      eig:计算矩阵的特征值和特征向量。

      svd:奇异值分解。

二、随机变量与概率分布

        随机变量:随机变量是对随机现象结果的数学抽象,即将随机事件的结果映射到实数空间中。通过引入随机变量,可以对随机事件进行量化描述,进而研究随机事件的规律与性质。随机变量可以分为不同类型,主要包括离散型随机变量、连续型随机变量以及混合型随机变量。

        1、离散型随机变量:只取有限个或可数个数值,例如掷骰子得到的点数、抛硬币正面朝上的次数等。离散型随机变量的概率分布可以通过概率质量函数(PMF)表示,即每个可能取值的概率。

       2、连续型随机变量:可以取某个范围内的任意数值,如测量身高、体重等连续性数据。连续型随机变量的概率分布可以通过概率密度函数(PDF)表示,在某一区间内的概率可以通过该区间下的概率密度曲线下的面积计算得出。

        3、混合型随机变量:同时具备离散型与连续型的特征,例如在某个时间段内发生某事件的次数与持续时间等。混合型随机变量的概率分布即是离散型与连续型概率分布的混合。

        概率分布是描述随机变量取各种可能值的概率的数学函数。根据随机变量所属类型的不同,概率分布取不同的表现形式。

        1、离散型概率分布:用于描述随机变量取有限个或可数个数值的情况。常见的离散型概率分布包括二项分布、泊松分布等。以二项分布为例,它描述了在一系列独立同分布的伯努利试验中成功的次数的概率分布。

        2、连续型概率分布:用于描述随机变量在某个区间内取值的情况。最常见的连续型概率分布是正态分布,也称为高斯分布。正态分布在自然界和社会科学中都有广泛应用,其概率密度函数具有钟型曲线特征。

三、概率分布之正态分布

        正态分布是一种连续概率分布,其概率密度函数呈钟形曲线。这种分布具有两个参数:均值(μ)和标准差(σ)。均值决定了分布的中心位置,即正态分布的对称轴;标准差则决定了分布的宽度和形状,标准差越大,分布越分散,反之则越集中。

        性质与特点:

                1、对称性:正态分布曲线关于均值μ对称。

                2、集中性:大部分数据值集中在均值μ附近。

               3、 稳定性:正态分布具有许多良好的数学性质,如可加性、可乘性等,使得它在统计分析中具有广泛的应用。

                4、68-95-99.7规则:对于任意一个正态分布,约68%的数据落在均值加减一个标准差的区间内,约95%的数据落在均值加减两个标准差的区间内,约99.7%的数据落在均值加减三个标准差的区间内。

        标准正态分布:标准正态分布是指均值为0,标准差为1的正态分布。所有的正态分布都可以通过标准正态分布进行转化和计算,这使得正态分布在统计分析中具有极大的灵活性和通用性。

四、统计判断

        统计判断主要依赖于统计推断,即通过样本数据来推断总体参数或特征。这一过程包括参数估计和假设检验两大基本问题。

        统计判断的方法:

  1. 均值检验(T检验):

    (1)单样本T检验:用于检验样本均值是否与给定值(如总体均值)有显著差异。(2)双样本T检验:用于比较两组样本均值是否显著不同。(3)配对T检验:用于比较配对数据(如实验前后的测量值)之间的均值差异。
  2. 方差分析(ANOVA):

    (1)用于比较三个或多个组的均值是否有显著差异。通过比较组间方差和组内方差,判断组间均值差异是否显著。
  3. 卡方检验(Chi-Square Test):

    (1)用于判断两个分类变量之间是否存在关联。通过比较观测频数与期望频数,检验变量是否独立。
  4. 相关性检验:

    (1)如皮尔森相关系数,用于度量两个变量之间的线性相关性。计算变量之间的协方差与标准差的比值,得到相关系数r,r的绝对值越接近1,表示两变量间的线性关系越密切。
  5. 正态性检验:

    (1)用于判断数据是否服从正态分布。常用的检验方法包括Shapiro-Wilk检验、Kolmogorov-Smirnov检验等。

五、假设检验

        假设检验是指从对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并做出承认还是拒绝该假设的判断。其基本思想基于反证法和小概率事件原理。

        1、反证法:首先提出假设(由于未经检验是否成立,所以称为零假设或原假设),然后用适当的统计方法确定假设成立的可能性大小。如果可能性小(即小概率事件发生),则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。

        2、小概率事件原理:在假设成立的前提下,通过计算样本统计量判断抽到目前样本的可能性是否为小概率事件。

六、显著性检验

        显著性检验(Significance Test)是统计决策中的一种基本方法,用于确定样本数据所观察到的差异是否足以拒绝一个原假设(通常称为零假设或H0)。这种方法广泛应用于科学、医学、社会学、经济学等领域,以评估实验或观测结果是否具有统计学意义上的显著性。

        基本步骤:

        1、提出假设:

        原假设(H0):通常表示两个总体之间没有显著差异,或者某个总体参数(如均值、比例等)等于某个特定值。

        备择假设(H1):与零假设相反,表示两个总体之间存在显著差异,或者总体参数不等于特定值。

        2、选择检验统计量:根据数据类型和研究设计,选择一个能够反映样本数据与零假设之间差异的统计量。

        3、计算检验统计量的值:根据样本数据计算所选检验统计量的实际观测值。

        4、确定显著性水平:选择一个阈值(通常称为α或显著性水平),用于确定何时拒绝零假设。常见的显著性水平有0.05、0.01等。

        5、确定拒绝域:根据所选的统计分布(如正态分布、t分布、卡方分布等)和显著性水平,确定检验统计量的拒绝域。

        6、作出推断:将检验统计量的值与拒绝域的临界点进行比较,如果落在拒绝域内,则拒绝原假设;否则,接受原假设。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值