tableone比较两组数据时各个组的均值方差均相同

最新推荐文章于 2023-05-03 22:29:05 发布

原创最新推荐文章于 2023-05-03 22:29:05 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

33 篇文章

订阅专栏

统计

8 篇文章

订阅专栏

本文探讨了在使用Python pandas库处理数据时，通过合并两个DataFrame并应用TableOne进行组间差异检验过程中遇到的问题。作者发现，未正确重置索引导致了统计数据异常，表现为两组的均值和方差相同。文章详细解释了问题原因，并分享了解决方案——使用reset_index()方法。

今天用table比较两个组的差异，数据是用两个dataframe竖向拼接起来的。

然后用table进行检验：

columns = ['diff', 'label']
categorical = []
nonnormal = []
groupby = 'label'
mytable = TableOne(val_stats, columns, categorical, groupby, nonnormal, pval=True)
print(mytable)

发现两个组里的均值和方差都完全相同：

               Grouped by label                                                   
                         isnull     ai_diff    doc_diff    pval              ptest
variable level                                                                    
n                                      2569        2569                           
diff                          0  -0.2 (1.5)  -0.2 (1.5)  <0.001  Two Sample T-test

原因是由于拼接起来后没有重新reset_index()，两个组都引用了同一个组的数据。

reset_index()后，问题解决。