机器学习基础--math(10)--P值

本文探讨了P值在科学研究中的应用,特别是如何利用P值判断实验结果的统计显著性。传统的0.05阈值已被广泛采用,但近年来有学者提出将其降低至0.005以提高研究质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

P值

  一个统计指标,许多科学领域中的研究结果的意义均是由P值来判断的。它们被用来证明或驳回一个“零假设”:通常假定所测试的效果并不存在。
  当P值越小,该实验结果是由纯粹的偶然所造成的可能性就越小。
  
  由于样本采集的有限性,他通常只能以小样本数来进行统计平均,不过在这研究的过程中,他发现小样本统计平均结果不满足他一开始认为的高斯分布。为了明白平均数精度与样本数的关系,Gosset尝试着去计算不同样本尺寸下的平均数精度,而这一问题也正是论文的研究核心。
  他计算得到的结果包含在了他的T-table分布表中,而现在一般只要是接触过统计课程的人都会知道T分布,即用来描述不同样本数对于统计概率的影响,当样本数足够大的时候,就等同于标准正态分布(高斯分布)。

使用

  Fisher带着一些武断性的选择α=0.05的概率值来衡量是否具有统计显著性,当 p值(统计学术语,原假设成立时得到与样本相同或者更极端结果的概率,P值越小,拒绝原假设的理由越充分,表明结果越显著)小于0.05时,我们拒绝原假设。
  比如,一位研究人员想要确定一种新的教学方法是否有效,他可以选取一组新教学方案教学的学生和普通教学方案的学生的学习成绩做对比。如果接受新方法的学生的分数比那些没有接受新方法的学生的分数高出5%的机率(p值),那么Fisher就认为新教学方案是有效的。不过后来证明Fisher武断的选择α=0.05的概率值来衡量是否具有统计意义的逻辑是有缺陷的。
  一个多世纪后,许多研究者认为Fisher选择α=0.05诱发了一个科学上的危机。诸如心理学、经济学和医学等学科上的实验结果,如果使用α=0.05作为判定阈值的话,那么将导致实验结论错误。

改进

  使用α=0.005来作为新的阈值。
  enjamin说:“虽然这样直接使用α=0.005解决方案并不完美,但已经可以在短期内做很多事。”正如提案的研究所表明的,使用α=0.005解决方案可以减少一半的经济学和心理学实验上的错误结果。
  Benjamin承认选择α=0.005也带有一点武断性质,并同他的同事也讨论过其他更低的阈值,但是他认为α=0.005是符合逻辑的。Benjamin补充到,对于0.05阈值的共同解释——结果(原假设)有95%的可能性是正确的,但使用更先进的统计技术发现,这95%的机率实际上是更接近于p值等于0.005。
  阈值从0.05更改到0.005只能挽救医学,心理学和经济学领域部分的研究结果,Benjamin的团队更希望医学研究人员、经济学家和心理学家能去正视现今他们领域中出现的科研诚信危机。

### 头歌平台中的决策树教程实例 头歌(Tougo)是一个专注于在线教育和技术实践的平台,提供了丰富的机器学习课程资源。以下是基于已知资料整理的内容,帮助理解头歌平台上可能涉及的决策树相关教学内容。 #### 决策树的基础概念 决策树是一种监督学习方法,广泛应用于分类和回归问题中。它通过一系列规则对数据进行分割,形成一棵树状结构[^1]。 - **节点**:表示特征或属性的选择点。 - **边**:代表从某个节点到其子节点的路径。 - **叶节点**:最终的预测结果所在位置。 #### 构建决策树的核心原理 构建决策树的关键在于选择最优的分裂准则,常见的指标包括信息熵、信息增益、信息增益率以及基尼指数[^2]。这些指标用于衡量某一特征对于目标变量的区分能力。 ##### 信息熵 信息熵是度量随机事件不确定性的指标,定义如下: \[ H(D) = - \sum_{k=1}^{K} p_k \log_2(p_k) \] 其中 \(p_k\) 表示类别 \(k\) 的概率分布。 ##### 条件熵与信息增益 条件熵描述了给定某些条件下剩余的信息不确定性,而信息增益则是原始熵减去条件熵的结果。ID3 算法利用信息增益作为分裂依据。 ```python import math def entropy(probabilities): """ 计算信息熵 """ return -sum([p * math.log2(p) for p in probabilities if p != 0]) # 示例计算 probs = [5/14, 4/14, 5/14] # outlook 取的概率分布 print(f"Entropy: {entropy(probs)}") # 输出熵 ``` ##### 基尼指数 CART 算法采用基尼指数来评估特征的重要性,其公式为: \[ Gini(D) = 1 - \sum_{k=1}^{K} (p_k)^2 \] #### 预剪枝与后剪枝技术 为了防止过拟合,决策树通常会应用剪枝策略。预剪枝主要通过对模型参数设置约束实现,例如限制最大深度或最小样本数量;而后剪枝则是在完全生长后再移除不必要的分支。 #### 实战案例分析 假设我们有一组天气数据集,记录了不同气象条件下的活动情况。可以按照以下步骤完成决策树的学习过程: 1. 数据准备阶段:加载并清洗数据; 2. 划分训练集与测试集; 3. 使用 Scikit-Learn 库建立决策树模型; 4. 调整超参数优化性能; 5. 对新输入做出预测。 ```python from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 创建虚拟数据集 X = [['sunny', 'hot'], ['overcast', 'mild'], ['rainy', 'cool']] Y = ['no', 'yes', 'yes'] # 将字符串转换成数编码... clf = DecisionTreeClassifier(criterion='gini') clf.fit(X_train, y_train) predictions = clf.predict(X_test) accuracy = accuracy_score(y_test, predictions) print(f'Accuracy: {accuracy}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值