在我们实际科学研究中,样本量是一个头疼的问题。一般而言,样本量越大,结果估计更精确,但是过大影响计划的实施,过小不能提供足够的统计效能。因此如何确定一个合适的样本量,增加研究的可靠性,得到可信的结果,这是一个重要的问题。因此,我们来讲讲在R语言中如何计算研究需要的样本量。
一、样本量的影响因素
“我的研究究竟需要多少样本量?”要回答这个问题,我们必须要知道影响样本量大小的因素有哪些。
样本的估算公式有很多,不同的统计检验方法,计算样本量的公式也不同,但一般而言影响样本量的因素有以下几种:
(1)事件的发生率:即所谓“小概率、大概率”事件,研究事件结局发生概率越大,需要的样本量越小,比如感冒;事件发生概率越小,样本量越大,比如罕见病。
(2)研究因素的有效率:效率越高,样本量越小。比如我们实验组和对照组所研究指标的差异越大,我们用较小的样本,即可达到统计学上的显著性。
(3)第一类错误的概率α:即我们统计学上平时讲的显著性。α越小,所需的样本量越大,但通常我们的α取值为0.05或者0.01。
(4)第二类错误的概率β:1-β就是我们所说的检验效能,检验效能就是在确定的α水平下,如果差异有统计学意义,我们有多大的把握能发现这种差别。所以β越小,检验效能越大,所需的样本量越大。
(5)容许误差:即要比较两者差多少我们是可以接受的。容许误差越小,需要的样本量越大。该值我们通常需要查阅资料,借鉴前人经验或者通过预实验来确定,或者取临床上有意义的差值。
(6)单双侧检验:一般而言,双侧检验需要的样本量更多。
二、配对t检验样本量的计算
2.1R语言配对t检验样本量计算
在R语言中pwr包给我们提供了一系列的样本量计
本文介绍了在R语言中如何计算配对t检验所需的样本量,详细解析了影响样本量的因素,如事件发生率、研究因素有效率、第一类错误概率、第二类错误概率、容许误差及单双侧检验。并通过实例展示了计算过程,得出至少需要30个样本以90%的把握检测到A指标在患者和健康者之间的显著差异。
订阅专栏 解锁全文
1485

被折叠的 条评论
为什么被折叠?



