贝叶斯网络,看完这篇我终于理解了(附代码)!

本文详细介绍了贝叶斯网络的概念,包括概率图模型的理解、贝叶斯学派与频率派的区别、贝叶斯定理、贝叶斯网络的结构形式与因子图。此外,还讲解了朴素贝叶斯模型及其假设,以及生成式模型和判别式模型的区别。最后,提供了代码实现的链接,帮助读者深入理解并应用贝叶斯网络。

1. 对概率图模型的理解

概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。

如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。

概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中有向边表示单向的依赖,无向边表示相互依赖关系

概率图模型分为**贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)**两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表 示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。

2. 细数贝叶斯网络

2.1 频率派观点

长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会想都不用想,会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的概率θ始终都是1/2,即不随观察结果X 的变化而变化。

这种频率派的观点长期统治着人们的观念,直到后来一个名叫Thomas Bayes的人物出现。

2.2 贝叶斯学派

托马斯·贝叶斯Thomas Bayes(1702-1763)在世时,并不为当时的人们所熟知,很少发表论文或出版著作,与当时学术界的人沟通交流也很少,用现在的话来说,贝叶斯就是活生生一民间学术“屌丝”,可这个“屌丝”最终发表了一篇名为“An essay towards solving a problem in the doctrine of chances”,翻译过来则是:机遇理论中一个问题的解。你可能觉得我要说:这篇论文的发表随机产生轰动效应,从而奠定贝叶斯在学术史上的地位。

这篇论文可以用上面的例子来说明,“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率θ是多少?”贝叶斯认为取得白球的概率是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式,便是贝叶斯式的思考方式。

先简单总结下频率派与贝叶斯派各自不同的思考方式:

  • 频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
  • 而贝叶斯派的观点则截然相反,他们认为参数是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。

贝叶斯派既然把看做是一个随机变量,所以要计算的分布,便得事先知道的无条件分布,即在有样本之前(或观察到X之前),有着怎样的分布呢?

比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或着无条件分布

其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。

后验分布π(θ|X)一般也认为是在给定样本X的情况下的θ条件分布,而使π(θ|X)达到最大的值θMD称为最大后验估计,类似于经典统计学中的极大似然估计

综合起来看,则好比是人类刚开始时对大自然只有少得可怜的先验知识,但随着不断观察、实验获得更多的样本、结果,使得人们对自然界的规律摸得越来越透彻。所以,贝叶斯方法既符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。

2.3 贝叶斯定理

条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

比如上图,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率:

P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap_{}B)}{P(B)} P(AB)=P(B)P(AB)

联合概率: P ( A ∩ B ) 或 者 P ( A , B ) P(A\cap_{}B)或者P(A,B) P(AB)P(A,B)

边缘概率(先验概率):P(A)或者P(B)

2.4 贝叶斯网络

贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。

贝叶斯网络的有向无环图中的节点表示随机变量 { X 1 , X 2 , . . . , X n } \{X_1,X_2,...,X_n\} { X1,X2,...,X

<think>我们使用MATLAB来完成这个数理统计课程设计。根据题目要求,我们需要完成以下任务: 1. 读取data.txt文件,绘制数据频数直方图。 2. 抽取容量为1000的样本,检验材料抗压强度服从正态分布(已知σ²=225),并求μ的贝叶斯估计(μ的先验分布为均匀分布U(400,500))。 3. 在显著水平0.05下,检验材料平均抗压强度是否不小于470(即μ≥470)。 4. 抽取1000次容量为30的样本,绘制样本均值的频数直方图,并求样本均值的均值及方差的0.95置信区间。 步骤: 1. 读取数据:假设data.txt文件每行一个数据,共10000个。 2. 绘制频数直方图:使用histogram函数。 3. 正态分布检验:使用Kolmogorov-Smirnov检验(由于题目要求已知σ²,但检验正态分布时通常使用样本均值和方差,但这里我们已知方差,所以可以构造标准正态分布进行检验,或者使用其他方法。然而,题目要求检验正态分布,通常用K-S检验或Jarque-Bera检验,但这里我们已知σ²,所以可以计算z分数然后用K-S检验对比标准正态分布?但是注意,我们只是检验正态分布,并不需要已知σ²,因为检验的是分布形状。所以,我们通常使用样本均值和方差作为正态分布的参数进行检验。但是题目要求已知σ²=225,这个信息在后面的贝叶斯估计和假设检验中用到,而在正态性检验中并不需要。因此,我们按一般方法进行正态性检验(使用样本均值和方差估计参数)或者使用Lilliefors检验(适用于参数未知的情况)。不过,题目没有指定检验方法,我们选择常用的方法:使用normplot(正态概率图)和Jarque-Bera检验。 4. 贝叶斯估计:已知σ²=225,μ的先验为U(400,500)。抽取容量为1000的样本,计算样本均值,然后根据贝叶斯公式,后验分布也是正态分布(但被截断在400到500之间)。具体来说,当先验是均匀分布(无信息先验)时,后验分布为正态分布N(样本均值, σ²/n),但这里先验是有限区间,所以后验是截断正态分布。 5. 假设检验:已知σ²=225,检验H0: μ≥470 vs H1: μ<470(左侧检验)。我们使用z检验。 6. 抽样:从原始数据中抽取1000个样本,每个样本容量为30,计算每个样本的均值,然后绘制这些均值的直方图,并计算均值的均值和方差的置信区间(注意:方差的置信区间?题目要求的是样本均值的均值和方差的置信区间?实际上,题目要求“样本均值的均值及方差的0.95置信区间”,这里“方差”指的是样本均值的方差,即标准误的平方。但注意,我们通常对样本均值的均值构造置信区间,而这里要求两个:一个是均值的均值,一个是方差的置信区间?实际上,题目要求的是“样本均值的均值”以及“样本均值的方差”的0.95置信区间?但是方差的置信区间通常是指总体方差的置信区间,而这里指的是样本均值的方差(即标准误的平方)的置信区间?这不太常见。再读题目:“求样本均值的均值及方差的0.95置信区间”。这里可能是指:1)样本均值的均值(即1000个样本均值的平均值);2)样本均值的方差的0.95置信区间。但是,样本均值的方差是一个数值,我们怎么求它的置信区间?实际上,应该是求总体均值的置信区间(对样本均值的均值)?或者求总体方差的置信区间?但题目要求的是“样本均值的方差”的置信区间,这不太通顺。重新理解:题目要求的是“样本均值的均值”以及“样本均值的方差”的0.95置信区间。注意,样本均值的方差是一个数值,但我们通常不会为这个数值求置信区间,因为它是从1000个样本均值计算出来的一个样本方差(是统计量),这个统计量本身没有置信区间,它是确定的。所以,这里可能是指: a) 计算1000个样本均值的平均值(即样本均值的均值) b) 计算1000个样本均值的方差(即样本均值的方差,也就是标准误的平方的估计) c) 然后对总体均值(即样本均值的均值)构造95%置信区间?或者对样本均值的方差构造置信区间?但题目没有明确。 然而,题目要求:“求样本均值的均值及方差的0.95置信区间”。这里“方差”可能是指总体方差?因为后面要求置信区间。但题目说“方差的0.95置信区间”,通常是指总体方差的置信区间。但是,我们抽取了1000个样本,每个样本30个观测值,那么我们可以用这1000个样本均值来估计总体均值和总体方差吗?注意,我们最终要得到总体均值的估计和总体方差的置信区间?但是题目要求的是“样本均值的均值”和“方差的0.95置信区间”。这里我理解为: - 样本均值的均值:即1000个样本均值的平均值,它是总体均值的估计。 - 方差的0.95置信区间:这里方差指的是总体方差,我们要求总体方差的95%置信区间。但是,我们通常从一个样本中估计总体方差的置信区间,而这里我们有1000个样本,每个样本容量30,我们可以用其中一个样本来计算总体方差的置信区间(比如用第一个样本),或者用所有样本的合并信息?但是题目没有明确。这里,根据题目的上下文,我推测:题目要求的是总体方差的置信区间,我们可以用其中一个样本(比如第一个样本)来计算,或者用合并的样本。但是,由于我们每次抽取的样本都是独立的,我们可以用所有1000个样本的观测值(共30000个,但注意是有放回抽样?题目没有说明,但通常是无放回抽样,然而总体很大,可以近似为独立)来估计总体方差,然后计算置信区间。但这样需要合并所有样本。另一种方法是,根据中心极限定理,样本均值的方差等于总体方差除以样本容量(30),所以我们先估计总体方差,然后得到样本均值的方差。但题目要求的是方差的置信区间,这个方差应该是总体方差。 但仔细阅读题目:“抽取1000次容量为30的样本,绘制样本均值的频数直方图,并求样本均值的均值及方差的0.95置信区间”。这里“方差的0.95置信区间”中的方差是指“样本均值的方差”?还是“总体方差”?从字面上看,它紧接着“样本均值的均值”,所以可能是针对样本均值的方差。但是,样本均值的方差是一个确定的数值(由1000个样本均值计算得到的),不需要置信区间。因此,这里可能是指:对总体方差求置信区间。而且,在统计学中,我们通常对总体参数求置信区间。所以,我决定: - 用1000个样本中的第一个样本(容量30)来计算总体方差的95%置信区间(因为每个样本都可以独立估计总体方差,我们只需要一个样本即可,或者我们可以用1000个样本方差的平均值来估计总体方差,然后求置信区间?但置信区间是针对一个样本的)。这里,为了简单,我们使用第一个样本来计算总体方差的置信区间。 但是,题目要求的是“样本均值的方差”的置信区间?这个说法不常见。另一种理解:题目要求的是样本均值的均值的置信区间(即总体均值的置信区间)和样本均值的方差的置信区间(即总体方差的置信区间除以n)?但这样就有两个置信区间。然而,题目只要求一个“方差的0.95置信区间”。所以,我重新理解:题目要求的是总体方差的置信区间。我们使用一个样本来计算。 然而,在题目要求中,第4点要求的是“样本均值的均值及方差的0.95置信区间”。这里“及”可能连接两个并列成分:样本均值的均值(一个点估计)和样本均值的方差(另一个点估计)的置信区间?这说不通。所以,我决定将“方差的0.95置信区间”理解为总体方差的置信区间,我们使用1000个样本中第一个样本的数据来计算。 步骤总结: 4.1 抽取1000个样本,每个样本容量30(从原始数据中无放回随机抽样,但注意,由于总体很大,每次抽样可以看作独立,但注意无放回抽样会使得样本之间不独立,所以我们采用有放回抽样?或者每次抽样后放回?题目没有说明,通常我们进行独立抽样,即每次抽取样本都是独立地从总体中抽取(有放回或者总体无限大近似)。由于总体10000很大,每次抽取30个,无放回抽样也可以近似独立。我们采用无放回抽样,但每次抽样都是从原始10000个数据中随机抽取30个(不重复,但不同样本之间可能有重复数据,因为每次抽完放回?)。这里,为了满足独立同分布,我们采用有放回抽样,但题目没有给出抽样方法,我们按照一般情况,即无放回抽样(因为总体有限,但10000足够大,所以近似独立)。我们使用无放回抽样(即每次抽取30个,不放回,但下一个样本再从整个总体中抽取,这样就允许不同样本之间有重叠)。具体实现:每次抽取都是独立地从10000个数据中随机抽取30个(无放回抽样,但每次抽取一个样本后,下一个样本抽取时数据放回,即每个样本都是从10000个中独立抽取30个)。 4.2 计算1000个样本均值,绘制频数直方图。 4.3 计算这1000个样本均值的平均值(即样本均值的均值)。 4.4 计算这1000个样本均值的方差(即样本均值的方差,记为v)。 4.5 对总体方差进行估计,并计算置信区间:使用第一个样本(容量30)计算样本方差s²,然后利用卡方分布求总体方差的95%置信区间。 但是,题目要求的是“样本均值的方差”的置信区间?还是“总体方差”的置信区间?这里我按照总体方差的置信区间来处理,因为样本均值的方差是v,这个v是一个数值,不需要置信区间。 然而,再思考:题目要求的是“样本均值的均值”和“方差的0.95置信区间”,这里“方差”可能指的是总体方差。所以,我们计算总体方差的置信区间。 因此,步骤4中,我们除了计算样本均值的均值和绘制直方图外,还要计算总体方差的95%置信区间(使用一个样本,比如第一个样本)。 但是,为了更准确,我们可以使用合并的样本方差(将1000个样本合并)来计算总体方差的置信区间?这需要将1000个样本的30*1000=30000个数据合并,但注意,这些样本是独立的,但数据有重叠(因为无放回抽样,但每次抽取30个,不同样本之间可能有重叠)。所以,我们只用第一个样本来计算。 另一种方法:我们也可以使用1000个样本方差来估计总体方差,然后计算置信区间,但这里我们按照单个样本来计算。 综上所述,我们按照以下步骤编写MATLAB程序: 步骤1:读取数据 步骤2:绘制频数直方图 步骤3:抽取一个容量为1000的样本(注意:题目要求抽取容量为1000的样本,所以从10000个数据中随机抽取1000个) 3.1 对这个样本进行正态性检验(使用normplot和Jarque-Bera检验) 3.2 已知σ²=225,μ的先验为U(400,500),求μ的贝叶斯估计(后验分布为截断正态分布,计算后验均值) 步骤4:假设检验(使用整个样本?还是使用步骤3的1000个样本?题目要求抽取容量为1000的样本进行检验,所以用这个样本) 检验H0: μ≥470 vs H1: μ<470 (左侧检验),使用z检验(因为σ已知) 步骤5:抽取1000次容量为30的样本(每次从总体中独立随机抽取30个数据) 5.1 计算每次的样本均值,得到1000个样本均值 5.2 绘制样本均值的频数直方图 5.3 求样本均值的均值(即1000个均值的平均值) 5.4 求样本均值的方差(即1000个均值的方差) 5.5 使用步骤5中抽取的第一个样本(容量30)计算总体方差的95%置信区间(卡方分布) 注意:步骤3中抽取的1000个样本用于贝叶斯估计和假设检验,步骤5中抽取1000次容量30的样本用于分析样本均值的分布。 下面我们将用MATLAB代码实现。 注意:由于我们不知道data.txt的具体位置,这里假设它和脚本在同一目录。 代码实现: </think> ### MATLAB实现材料抗压强度统计分析 下面是用MATLAB实现材料抗压强度统计分析的完整方案,包括数据读取、频数直方图绘制、正态性检验、贝叶斯估计、假设检验和抽样分析等功能。 ```matlab %% 材料抗压强度统计分析课程设计 clear; clc; close all; %% 1. 数据读取与预处理 % 假设data.txt文件包含10000个抗压强度数据,每行一个数值 data = load('data.txt'); n_total = length(data); % 显示基本统计信息 fprintf('数据总量: %d\n', n_total); fprintf('样本均值: %.4f\n', mean(data)); fprintf('样本标准差: %.4f\n', std(data)); %% 2. 绘制频数直方图 figure; histogram(data, 50, 'Normalization', 'count', 'FaceColor', '#1f77b4'); title('材料抗压强度频数分布直方图 (n=10,000)'); xlabel('抗压强度'); ylabel('频数'); grid on; % 添加正态分布参考线 hold on; x_range = linspace(min(data), max(data), 1000); pdf_normal = normpdf(x_range, mean(data), std(data)); scale_factor = max(histcounts(data, 50)) / max(pdf_normal); plot(x_range, pdf_normal * scale_factor, 'r-', 'LineWidth', 2); legend('数据分布', '正态分布拟合'); hold off; %% 3. 抽取容量1000的样本进行正态分布检验 n_sample1 = 1000; sample1 = datasample(data, n_sample1, 'Replace', false); % 正态性检验 (Jarque-Bera检验) [h, p] = jbtest(sample1); fprintf('\n正态性检验结果(Jarque-Bera检验):\n'); fprintf('H0: 数据服从正态分布\n'); fprintf('检验统计量 p值 = %.4f\n', p); if h == 0 fprintf('结论: 不能拒绝H0,数据服从正态分布\n'); else fprintf('结论: 拒绝H0,数据不服从正态分布\n'); end % 正态概率图 figure; normplot(sample1); title('正态概率图 (n=1000)'); grid on; %% 4. 贝叶斯估计 (已知σ²=225, μ的先验分布为U(400,500)) sigma_sq = 225; % 已知方差 sigma = sqrt(sigma_sq); x_bar = mean(sample1); % 贝叶斯估计参数 a = 400; % 先验下限 b = 500; % 先验上限 % 后验分布参数 posterior_mu = x_bar; posterior_sigma = sigma / sqrt(n_sample1); % 截断正态分布参数 alpha_param = (a - posterior_mu) / posterior_sigma; beta_param = (b - posterior_mu) / posterior_sigma; % 计算贝叶斯估计 (后验均值) pd = makedist('Normal', 'mu', posterior_mu, 'sigma', posterior_sigma); t = truncate(pd, alpha_param, beta_param); bayes_estimate = mean(t); fprintf('\n贝叶斯估计结果:\n'); fprintf('样本均值: %.4f\n', x_bar); fprintf('贝叶斯估计(后验均值): %.4f\n', bayes_estimate); %% 5. 假设检验 (H0: μ ≥ 470, α=0.05) mu0 = 470; alpha_level = 0.05; % 使用z检验 (已知方差) z = (x_bar - mu0) / (sigma / sqrt(n_sample1)); p_value = normcdf(z); % 左侧检验 fprintf('\n假设检验结果(α=0.05):\n'); fprintf('零假设 H0: μ ≥ %d\n', mu0); fprintf('检验统计量 z = %.4f\n', z); fprintf('P值 = %.6f\n', p_value); if p_value < alpha_level fprintf('结论: 拒绝H0,材料平均抗压强度小于470\n'); else fprintf('结论: 不能拒绝H0,材料平均抗压强度不小于470\n'); end %% 6. 抽样分析:1000次容量30的样本 n_samples = 1000; n_sample2 = 30; sample_means = zeros(n_samples, 1); for i = 1:n_samples sample = datasample(data, n_sample2, 'Replace', false); sample_means(i) = mean(sample); end % 绘制样本均值频数直方图 figure; histogram(sample_means, 30, 'FaceColor', '#2ca02c'); title('样本均值抽样分布 (1000个样本, n=30)'); xlabel('样本均值'); ylabel('频数'); grid on; % 计算统计量和置信区间 mean_of_means = mean(sample_means); variance_of_means = var(sample_means); std_err = std(sample_means) / sqrt(n_samples); % 样本均值的95%置信区间 ci_mean = [mean_of_means - 1.96*std_err, mean_of_means + 1.96*std_err]; % 样本均值方差的95%置信区间 chi2_low = chi2inv(0.025, n_samples-1); chi2_high = chi2inv(0.975, n_samples-1); ci_variance = [(n_samples-1)*variance_of_means/chi2_high, ... (n_samples-1)*variance_of_means/chi2_low]; fprintf('\n抽样分析结果:\n'); fprintf('样本均值的均值: %.4f\n', mean_of_means); fprintf('样本均值的方差: %.4f\n', variance_of_means); fprintf('样本均值的95%%置信区间: (%.4f, %.4f)\n', ci_mean(1), ci_mean(2)); fprintf('样本均值方差的95%%置信区间: (%.4f, %.4f)\n', ci_variance(1), ci_variance(2)); ``` ### 程序功能说明 1. **数据读取与预处理**: - 从`data.txt`文件加载10000个抗压强度数据 - 计算基本统计量(均值、标准差) 2. **频数直方图绘制**: - 使用50个分箱展示数据分布 - 叠加正态分布曲线作为参考[^4] - 直观展示数据分布形态 3. **正态性检验**: - 使用Jarque-Bera检验验证数据正态性 - 绘制正态概率图辅助判断[^3] 4. **贝叶斯估计**: - 已知$\sigma^2 = 225$ - $\mu$的先验分布为$U(400,500)$ - 计算后验分布(截断正态分布) - 输出贝叶斯估计值(后验均值) 5. **假设检验**: - $H_0: \mu \geq 470$ vs $H_1: \mu < 470$ - 显著性水平$\alpha = 0.05$ - 使用z检验(已知方差) - 输出检验统计量和P值 6. **抽样分析**: - 抽取1000个容量为30的样本 - 绘制样本均值的频数直方图 - 计算样本均值的均值和方差 - 计算样本均值及其方差的95%置信区间 ### 关键算法说明 1. **贝叶斯估计**: 当先验分布为均匀分布$U(a,b)$,似然函数为正态分布$N(\mu,\sigma^2)$时,后验分布为截断正态分布: $$ p(\mu|X) \propto \begin{cases} \exp\left(-\frac{(\mu - \bar{x})^2}{2(\sigma/\sqrt{n})^2}\right) & a \leq \mu \leq b \\ 0 & \text{其他} \end{cases} $$ 贝叶斯估计取后验均值[^1]。 2. **假设检验**: 检验统计量: $$ z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}} $$ 对于左侧检验,拒绝域为$z < -z_\alpha$。 3. **置信区间**: - 样本均值置信区间: $$ \bar{\bar{x}} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{m}} $$ - 方差置信区间: $$ \left(\frac{(m-1)s^2}{\chi^2_{\alpha/2,m-1}}, \frac{(m-1)s^2}{\chi^2_{1-\alpha/2,m-1}}\right) $$ 其中$m$为样本数量[^2]。 ### 结果解读 1. **数据分布**:直方图展示数据分布形态,正态参考线辅助判断正态性 2. **正态性检验**:Jarque-Bera检验和正态概率图共同验证数据正态性 3. **贝叶斯估计**:在考虑先验信息后给出$\mu$的估计值 4. **假设检验**:根据P值判断是否拒绝原假设 5. **抽样分析**:样本均值的分布验证中心极限定理,置信区间评估估计精度 ### 注意事项 1. 确保`data.txt`文件位于MATLAB当前工作目录 2. 程序使用MATLAB统计和机器学习工具箱 3. 可根据需要调整分箱数量、样本大小等参数 4. 图形可导出为图片用于课程设计报告
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值