也许所有机器学习的初学者,或者中级水平的学生,或者统计专业的学生,都听说过这个术语,假设检验。
我将简要介绍一下这个当我学习时给我带来了麻烦的主题。我把所有这些概念放在一起,并使用python进行示例。
在我寻求更广泛的事情之前要考虑一些问题 ——
Python资源共享群:626017123
什幺是假设检验? 我们为什幺用它? 什幺是假设的基本条件? 什幺是假设检验的重要参数?
让我们一个个地开始吧:
1、 什幺是假设检验?
假设检验是一种统计方法,用于使用实验数据进行统计决策。假设检验基本上是我们对人口参数做出的假设。
例如:你说班里的学生平均年龄是40岁,或者一个男生要比女生高。
我们假设所有这些例子都需要一些统计方法来证明这些。无论我们假设什幺是真的,我们都需要一些数学结论。
2、我们为什幺要用它?
假设检验是统计学中必不可少的过程。假设检验评估关于总体的两个相互排斥的陈述,以确定样本数据最佳支持哪个陈述。当我们说一个发现具有统计学意义时,这要归功于一个假设检验。
3、什幺是假设的基本条件?
不同均值和方差下的正态分布 假设的基础是规范化和标准规范化
(链接https://en.wikipedia.org/wiki/Normalization_(statistics);https://stats.stackexchange.com/questions/10289/whats——the——difference——between——normalization——and——standardization)。我们所有的假设都围绕这两个术语的基础。让我们看看这些。
标准化的正态曲线图像和数据分布及每个部分的百分比 你一定想知道这两个图像之间有什幺区别,有人可能会说我找不到,而其他人看到的图像会比较平坦,而不是陡峭的。好吧伙计这不是我想要表达的,首先你可以看到有不同的正态曲线所有那些正态曲线可以有不同的均值和方差,如第二张图像,如果你注意到图形是合理分布的,总是 均值= 0和方差= 1 。当我们使用标准化的正态数据时,z—score的概念就出现了。
正态分布
如果变量的 分布 具有 正态曲线 的形状——一个特殊的 钟形曲线 ,则该变量被称为 正态分布 或具有正态分布。 正态分布图称为正态曲线 ,它具有以下所有 属性 :1.均值,中位数和众数是相等。
正态分布方程
标准化正态分布
标准正态分布是 平均值为0 ,标准差为1的 正态分布
4、哪些是假设检验的重要参数?
零假设:
在推论统计中,零假设是一种普遍的说法或默认的观点,即两个测量现象之间没有关系,或者分组间没有关联
换句话说,它是一个基本假设,或基于领域或问题知识。
示例:公司的生产力=50个单位/天等
备择假设:
另一种假设是假设检验中使用的假设与零 假设 相反。通常认为观察是真实效果的结果(叠加了一定量的偶然的变化)
零假设与备择假设
示例:公司生产≠50单位/每天等。
重要程度:指我们接受或拒绝无效假设的重要程度。接受或拒绝假设不可能100%准确,因此我们选择通常为5%的重要程度。
这通常用alpha(数学符号)表示,通常为0.05或5%,这意味着您的输出应该有95%的信心在每个样本中给出类似的结果。
I型错误:当我们拒绝零假设时,尽管该假设是正确的。类型I错误由alpha表示。在假设检验中,显示关键区域的正常曲线称为α区域
II型错误:当我们接受零假设但它是错误的。II型错误用beta表示。在假设检验中,显示接受区域的正常曲线称为β区域。
单尾测试:统计假设的测试,其中拒绝区域仅在采样分布的一侧,称为单 尾测试 。
例如:一所大学有≥4000名学生或数据科学≤80%采用的组织。
双尾测试 :双尾测试 是一种统计测试,其中分布的关键区域是