t检验只能用于样本量少于30个的数据?要做z检验吗?(转)

在统计学中,很多人认为样本量大于30时应使用z检验,小于30时则使用t检验。本文指出这一观点存在误区,并建议无论样本大小,只要假定总体正态,均可直接使用t检验进行两个样本平均数的差异性检验。

经常在统计教材里面看到,t检验适用于样本量n<30的数据,样本量较大时应使用z检验。常用的SPSS统计软件只有t检验,没有z检验(国内也被称作u检验),怎么办?

样本量n>30时,还能继续使用t检验吗?

很多书上都这样讲:T和Z检验公式适合不同类型的试题,可是在讲SPSS操作部分时,所有类型的题目用SPSS里的t检验计算了。

比如,按照书上手算部分的讲解,只适合Z 检验的例题,可SPSS操作部分却用的是T检验,前面和费劲地讲解两个公式的区别,后面却又一样了,如何解释?

在两个样本平均数的差异性检验中,什么时候用t检验,什么时候用z检验?不少人存在困惑。

大家根深蒂固的认识:样本容量大于30时,用z检验;样本容量小于30时,用t检验。这里,其实存在误解。

在这里插入图片描述
我的意见很简单:

只要是两个样本平均数的差异性检验,假定总体正态,不管样本容量是否大于30,就直接使用t检验,而不用费心地想是采用t检验还是采用z检验。这大概也叫做“认知经济论”吧!

两个样本平均数的差异性检验,实际上是针对样本平均数差异量的分布来展开的。实际抽样中,样本容量都是有限的,所以一般很难保证样本平均数差异量的分布为正态,因此严格地说都不能使用Z分布检验,本来就该采用t检验。

过去,因为计算机使用不是很普遍,更多时候借助于计算器,甚 至有的人连计算器都没有,简化算法就很必要了。也就是说,采用Z检验,是权宜之计,是当样本容量较大时,分布虽不正态但接近正态分布,所以近似采用Z检 验,可以省事!现在,不需要简化算法了,因为这点计算对装有SPSS的计算机来说,简直是“小小菜”!

简单说,本来就该t检验,而不是z检验。

原文出处:
http://blog.sina.com.cn/s/blog_4a5c956b0100rj7g.html

本篇由数据小兵最终编辑。

请根据以下问题给出由Python制作的建模代码,不少于四百行 NIPT(Non-invasive Prenatal Test ,即无创产前检测)是一种通过采集母体血液、检测胎儿的游离 DNA 片段、分析胎儿染色体是否存在异常的产前检测技术,目的是通过早期检测确定胎儿的健康状况。 根据临床经验,畸型胎儿主要有唐氏综合征、爱德华氏综合征和帕陶氏综合征,这三种体征分别由胎儿 21 号、18 号和 13 号“染色体游离 DNA 片段的比例 ”(简称“染色体浓度 ”)是否异常决定。NIPT 的 准确性主要由胎儿性染色体(男胎 XY,女胎 XX)浓度判断。通常孕妇的孕期在 10 周~25 周之间可以 检测胎儿性染色体浓度,且如果男胎的 Y 染色体浓度达到或高于 4%、女胎的 X 染色体浓度没有异常, 则可认为 NIPT 的结果是基本准确的,否则难以保证结果准确性要求。同时,实际中应尽早发现不健康 的胎儿,否则会带来治疗窗口期缩短的风险,早期发现(12 周以内)风险较低;中期发现(13-27 周) 风险高;晚期发现(28 周以后)风险极高。 实践表明,男胎 Y 染色体浓度与孕妇孕周数及其身体质量指数(BMI)紧密相关。通常根据孕妇的 BMI 值进行分组(例如:[20,28) ,[28,32) ,[32,36) ,[36,40) ,40 以上)分别确定 NIPT 的时点(相对孕 期的时间点)。由于每个孕妇的年龄、BMI、孕情等存在个体差异,对所有孕妇采用简单的经验分组和 统一的检测时点进行 NIPT,会对其准确性产生较大影响。因此,依据 BMI 对孕妇进行合理分组,确定 各不同群组的最佳 NIPT 时点,可以减少某些孕妇因胎儿不健康而缩短治疗窗口期所带来的潜在风险。 为了研究各类孕妇群体合适的 NIPT 时点,并对检测的准确性进行分析,附件给出了某地区(大多 为高 BMI)孕妇的 NIPT 数据。在实际检测中,经常会出现测序失败(比如:检测时点过早和不确定因 素影响等)的情况。同时为了增加检测结果的可靠性,对某些孕妇有多次采血多次检测或一次采血多次 检测的情况。试利用附件提供的数据建立数学模型研究如下问题: 问题 1 试分析胎儿 Y 染色体浓度与孕妇的孕周数和 BMI 等指标的相关特性,给出相应的关系模 型,并检验其显著性。 问题 2 临床证明,男胎孕妇的 BMI 是影响胎儿 Y 染色体浓度的最早达标时间(即浓度达到或超 过 4%的最早时间)的主要因素。试对男胎孕妇的 BMI 进行合理分组,给出每组的 BMI 区间和最佳 NIPT 时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响。 问题 3 男胎 Y 染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因 素、检测误差和胎儿的 Y 染色体浓度达标比例(即浓度达到或超过 4%的比例),根据男胎孕妇的 BMI , 给出合理分组以及每组的最佳 NIPT 时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。 问题 4 由于孕妇和女胎都不携带 Y 染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的21 号、18 号和 13 号染色体非整倍体(AB 列)为判定结果,综合考虑 X 染色体及上述染色体的 Z 值、GC 含量、读段数及相关比例、BMI 等因素,给出女胎异常的判定方法。 附件为xlsx格式,各列说明如下 A 样本序号 B 孕妇代码 C 孕妇年龄 D 孕妇身高 E 孕妇体重 F 末次月经时间 G IVF 妊娠方式 H 检测时间 I 检测抽血次数 J 孕妇本次检测时的孕周(周数+天数) K 孕妇 BMI 指标 L 原始测序数据的总读段数(个) M 总读段数中在参考基因组上比对的比例 N 总读段数中重复读段的比例 O 总读段数中唯一比对的读段数(个) P GC 含量,序列中碱基 G (鸟嘌呤)和 C (胞嘧啶)所占的比例,是测序数据质量 评估中的一个重要指标,正常 GC 含量范 围为 40% ~ 60% ,GC 含量过高、过低、 或分布异常可能意味着测序质量存在问题 Q 13 号染色体的 Z 值 R 18 号染色体的 Z 值 S 21 号染色体的 Z 值 T X 染色体的 Z 值 U Y 染色体的 Z 值(女胎数据此列为空白) V Y 染色体浓度,即Y 染色体游离 DNA 片 段的比例(女胎数据此列为空白) W X 染色体浓度(其数值是通过生物信息学在 一定假设下通过数据分析估计得出,可能出 现负值) X 13 号染色体的 GC 含量 Y 18 号染色体的 GC 含量 Z 21 号染色体的 GC 含量 AA 被过滤掉的读段数占总读段数的比例 AB 检测出的 13 号,18 号,21 号染色体非整 倍体,即数量异常, 空白即为无异常 AC 孕妇的怀孕次数 AD 孕妇的生产次数 AE 胎儿是否健康(婴儿出生后的结果) Z 值(Z-score)的计算公式: Z =(X 一 μ)/σ 其中X为待检测样本中目标染色体的相对计数比例,μ 为正常对照群体中该染色体计数比例的均值,σ 为正常群体中该比例的标准差。在 NIPT 中,对于常见染色体非整倍体检测,通常采用Z 值分析方法进 行统计判定。已知染色体非整倍体通常定义为该染色体存在一个或三个拷贝,正常为两个拷贝,且每条 染色体所采集到的读段数量与该染色体长度成正比。
09-07
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值