小样本大概率事件的正确处理方式 - 2. 结果分析

本文探讨了在处理小样本大概率事件时,概率约束和样本约束两种方法的优缺点。通过实例展示了1000次随机事件中,概率约束在样本数量增加时接近期望值,但小样本误差显著;而样本约束通过预设频次约束,能更快收敛到期望概率。策划在面对事件的间断性和连续性时,应考虑选用合适的约束策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接上一篇 小样本大概率事件的正确处理方式 - 1. 概率的含义和误差产生的原因

首先,对于传统的“分别判断样本中每个事件是否发生”,我称之为概率约束;而“提前对样本内的事件发生频次进行预处理”,我称之为样本约束
然后,这次随机我使用三个互斥事件:从0,1,2三个数字中取一个,取出0的概率为20%,取出1的概率为30%,取出2的概率为50%。并且,我提高样本的大小到1000。
接着,为了让结果更加直观,我通过Excel做了一个表和曲线图。

对于概率约束,我的算法是这样的:(不需要解释吧)
这里写图片描述
对于样本约束,我的算法是这样的:(简单说明一下,这里是每10次随机作为一个小样本,约束里面的0出现2次,1出现3次,2出现5次,然后进行洗牌,这样重复了100次。由于是三个互斥事件,所以和上一篇文章中的01对立事件的算法有差别。)
这里写图片描述

概率约束的结果是

Likelihood ratio test Model 1: Y ~ X1 + X2 + X3 + X4 + X5 Model 2: Y ~ 1 #Df LogLik Df Chisq Pr(>Chisq) 1 8 -13.615 2 1 -22.493 -7 17.757 0.01311 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Call: glm(formula = Y ~ X1 + X2 + X3 + X4 + X5, family = binomial(link = "logit"), data = data) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -7.84172 4.68581 -1.674 0.0942 . X1 0.10455 0.04637 2.255 0.0242 * X2 0.01961 0.04651 0.422 0.6734 X3 0.01207 0.06096 0.198 0.8431 X41 -0.29594 1.09369 -0.271 0.7867 X42 -1.70301 1.49793 -1.137 0.2556 X43 -18.42744 2313.85892 -0.008 0.9936 X5 -0.84058 1.00796 -0.834 0.4043 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 44.987 on 39 degrees of freedom Residual deviance: 27.230 on 32 degrees of freedom AIC: 43.23 Number of Fisher Scoring iterations: 17 Call: glm(formula = Y ~ X1, family = binomial(link = "logit"), data = data) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.88393 2.45214 -2.807 0.00500 ** X1 0.09156 0.03552 2.578 0.00994 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 44.987 on 39 degrees of freedom Residual deviance: 33.535 on 38 degrees of freedom AIC: 37.535 Number of Fisher Scoring iterations: 5 Call: glm(formula = Y ~ X1, family = binomial(link = "logit"), data = data) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.88393 2.45214 -2.807 0.00500 ** X1 0.09156 0.03552 2.578 0.00994 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 44.987 on 39 degrees of freedom Residual deviance: 33.535 on 38 degrees of freedom AIC: 37.535 Number of Fisher Scoring iterations: 5 Obs X1 X5 Y_actual Prob_Y1 1 1 70 1 1 0.4147 2 2 60 1 0 0.2040 3 3 70 1 0 0.4372 4 4 40 1 0 0.0348 5 5 40 1 0 0.0541 6 6 70 1 0 0.3521 7 7 70 1 0 0.3576 8 8 80 1 0 0.3235 9 9 60 1 0 0.0625 10 10 30 1 0 0.0021 分析结果重新回答问题
最新发布
06-23
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值