今天用table比较两个组的差异,数据是用两个dataframe竖向拼接起来的。
然后用table进行检验:
columns = ['diff', 'label']
categorical = []
nonnormal = []
groupby = 'label'
mytable = TableOne(val_stats, columns, categorical, groupby, nonnormal, pval=True)
print(mytable)
发现两个组里的均值和方差都完全相同:
Grouped by label
isnull ai_diff doc_diff pval ptest
variable level
n 2569 2569
diff 0 -0.2 (1.5) -0.2 (1.5) <0.001 Two Sample T-test
原因是由于拼接起来后没有重新reset_index(),两个组都引用了同一个组的数据。
reset_index()后,问题解决。

本文探讨了在使用Python pandas库处理数据时,通过合并两个DataFrame并应用TableOne进行组间差异检验过程中遇到的问题。作者发现,未正确重置索引导致了统计数据异常,表现为两组的均值和方差相同。文章详细解释了问题原因,并分享了解决方案——使用reset_index()方法。
4201

被折叠的 条评论
为什么被折叠?



