import pandas as pd
import numpy as np
from scipy import stats
# 原始数据整理
data = {
"20-29": [1,2,1,2,2,2,2,2,2,2,3,1,2,2,3],
"30-39": [3,3,np.nan,1,2,1,1,2,1,1,2,1,2,2,2,2,2,2,3,np.nan,2,3,1,2,2,2,3,2,1,3,3,1,2,1,1,2,4,1,np.nan,2,2,3,4,np.nan,2,1,3,2,np.nan,2,1,2,1,2,2,1,1,1,2,1,2,3,np.nan,2,1,2,1,2,3,2,np.nan,2,1,1,4,1,np.nan,3,2,2,1,2,2,3,4,1,3,3,2,2,4,2,2,1,2,2,2,3,2,3,2,2,1,1,2,1,3,2,4,2,2,2,3],
"40-49": [1,2,1,1,1,1,2,2,1,1,1,2,2,2,2,2,2,1,4,2,2,3,2,2,1,2,1,1,1,1,3,np.nan,2,2,1,np.nan,2,1,2,2,np.nan,np.nan,2,2,2,2,2,2,1,1,3,3,2,1,1,1,2,2,1,2,2,1,1,1,2,1,2,2,2,2,2,1,2,2,3,2,3,2,2,np.nan,2,2,2,2,2,2,2,1,1,2,2,1,1,np.nan,1,2,1,1,1,2,2,1,2,2,2,2,2,1,np.nan,np.nan,1,2,1,1,2,2,2,1,3,1,1,3,2,2,4,1,2,2,2,2,1,2,1,2,2,2,2,2,1,1,2,2,3,2,4,2,1,np.nan,2,2,2,2,2,2,2,1,np.nan,1,2,2,np.nan,1,2,1,2,2,1,3,2,2,3,1,2,2,2,1,1,2,np.nan,1,2,2,4,1,np.nan,np.nan,1,2,2,1,2,2,2,1,2,2,2,1,3,1,1,1,3,1,2,2,np.nan,2,2,3,2,2,np.nan,1,1,1,1,2,1,1,np.nan,3,4,1,1,np.nan,1,2,1,2,1,4,1,1,2],
"50-59": [1,1,2,1,1,np.nan,3,1,2,1,1,4,1,np.nan,np.nan,1,2,1,2,2,1,3,2,3,2,2,2,1,2,2,2,1,np.nan,1,2,2,2,2,1,1,np.nan,3,1,2,1,1,1,1,1,np.nan,1,2,2,1,2,1,2,1,1,1,2,1,1,2,3,1,1,1,2,np.nan,np.nan,1,1,1,np.nan,2,2,2,1,1,1,np.nan,1,1,1,1,2,1,2,1,1,1,2,2,1,2,3,1,1,1,np.nan,2,np.nan,1,1,1,1,np.nan,2,2,2,1,2,1,1,1,1,2,1,1,1,1,np.nan,1,1,2,1,np.nan,2,2,2,1,np.nan,1,1,2,2,1,1,2,2,1,1,1,1,2,2,2,np.nan,1,2,1,1,2,1,1,2,3,1,2,1,1,np.nan,1,np.nan,np.nan,1,2,2,1,2,1,1,3,1,1,3,1,1,1,1,2,1,1,2,1,1,1,1,np.nan,1,1,1,1,2,2,3,2,3,1,1,1,2,2,1,2,1,2,2,1,np.nan,2,2,1,2,2,1,1,2,1,1,2,2,1,1,1,2,2,2,1,2,2,2,1,2,2,2,2,1,3,1,1,1,2,2,2,1,1,1,3,np.nan,1,1,1,1,1,1,2,2,1,2,1,1,2,2,1,np.nan,2,1,2,1,1,2,1,1,1,np.nan,2,1,1,2,1,2,2,2,1,1,1,1,1,1,2,1,1,2,2,2,1,2,2,1,2,2,2,1,1,1,1,np.nan,1,2,2,1,2,2,2,2,2,1,1,1,1,1,1,1,2,2,2,2,np.nan,2,2,1,1,1,3,1,1,1,2,np.nan,2,2,np.nan,2,1,3,1,2,1,np.nan,2,np.nan,4,2,1,2,1,1,2,1,2,1,2,1,np.nan,1,2,1,2,2,1,np.nan,1,1,1,1,2,1,2,2,np.nan,1,1,1,2,3,2,1,2,1,1,2,1,1,1,2,1,2,1,3,1,np.nan,1,1,2,1,2,3,2,2,2],
"60-69": [1,np.nan,1,np.nan,2,2,1,np.nan,2,2,2,2,2,2,3,2,1,1,np.nan,3,2,1,1,1,1,1,1,2,1,1,1,2,np.nan,np.nan,1,1,np.nan,1,1,2,3,2,3,1,2,1,1,np.nan,1,2,2,1,1,3,2,1,2,np.nan,1,1,1,1,2,1,2,3,np.nan,np.nan,1,1,np.nan,1,4,2,np.nan,2,1,1,np.nan,1,1,1,1,3,1,3,1,2,1,1,1,1,1,1,2,3,np.nan,1,1,2,np.nan,1,1,1,1,3,2,2,1,1,3,2,1,np.nan,4,2,2,np.nan,np.nan,1,1,1,3,np.nan,2,1,2,2,1,2,np.nan,1,2,1,np.nan,2,3,2,4,1,1,2,3,2,1,2,1,3,1,2,3,1,2,2,2,2,1,np.nan,2,3,1,2,2,2,2,1,1,np.nan,2,3,2,1,1,1,2,2,1,1,np.nan,np.nan,1,1,1,1,1,2,2,2,2,2,2,2,1,1,2,2,2,2,2,3,2,2,1,1,2,1,2,2,2,3,2,1,1,2,1,np.nan,1,1,1,1,np.nan,1,2,2,1,2,1,1,2,1,2,2,1,1,2,1,1,1,2,2,np.nan,2,1,1,3,1,1,3,2,1,1,2,2,3,2,1,1,2,2,2,2,1,2,np.nan,3,1,1,2,1,2,2,2,2,1,2,np.nan,1,2,1,1,2,1,2,1,1,np.nan,np.nan,1,1,1,3,1,1,1,1,2,1,2,1,2,1,1,2,1,np.nan,np.nan,2,1,1,2,2,np.nan,1,np.nan,np.nan,2,1,1,2,2,1,1,1,1,1,2,1,1,1,1,np.nan,1,1,1,2,2,2,2,1,1,1,2,2,4,1,1,2,1,np.nan,2,1,np.nan,1,2,1,2,2,np.nan,1,1,1,2,2,1,np.nan],
"70-79": [1,np.nan,1,1,np.nan,1,1,np.nan,1,1,1,1,1,np.nan,1,1,1,1,1,1,1,1,1,1,1,3,1,1,1,1,np.nan,2,1,np.nan,3,1,2,np.nan,2,np.nan,1,np.nan,1,1,1,1,1,2,1,1,1,1,1,1,1,1,1,1,np.nan,np.nan,3,1,1,1,1,3,3,2,2,3,1,2,np.nan,1,1,1,1,1,1,np.nan,1,1,2,2,1,1,1,1,1,np.nan,1,np.nan,1,1,2,np.nan,1,1,2,1,np.nan,1,2,2,2,1,2,1,1,1,np.nan,1,2,1,1,np.nan,np.nan,np.nan,2,2,1,1,1,1,1,1,1,1,np.nan,1,1,2,1,1,1,2,1,1,np.nan,1,2,np.nan,1,1,1,1,2,1,1,np.nan,1,2,1,1,1,1,1,1,1,3,1,1,1,1,1,1,1,1,1,1,2,2,1,1,1,2,2,np.nan,2,1,1,1,1,1,1,3,1,1,2,np.nan,1,1,1,1,1,1,2,1,1,np.nan,np.nan,2,2,np.nan,1,2,3,2,np.nan,1,2,1,2,1,1,np.nan,np.nan,1,1,1,1,np.nan,1,1,np.nan,np.nan,1,1,np.nan,1,1,2,2,1,1,2,1,1,np.nan,1,1,1,1,1,2,np.nan,1,2,1,1,1,1,1,1,1,1,1,np.nan,1,1,2,2,2,3,1,2,3,1,1,1,2,3,1,1,2,np.nan,2,np.nan,2],
"80-91": [np.nan,2,np.nan,np.nan,np.nan,np.nan,np.nan,np.nan,1,1,1,1,1,np.nan,2,1,1,np.nan,np.nan,np.nan,2,1,1,3,1,1,2,np.nan,np.nan,1,1,2,np.nan,1,2,1,2,4,np.nan,1,1,np.nan,1,np.nan,1,1,1,2,np.nan,2,1,np.nan,1,3,1,np.nan,1,1,1,1,1,1,3,1,1,1,1]
}
import pandas as pd
import numpy as np
from scipy import stats
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import seaborn as sns
import matplotlib.pyplot as plt
# 将原始数据转换为DataFrame
df_list = []
for age_group, values in data.items():
temp_df = pd.DataFrame({
'age_group': [age_group] * len(values),
'education': values
})
df_list.append(temp_df)
df = pd.concat(df_list).reset_index(drop=True)
# 删除缺失值
df_clean = df.dropna(subset=['education']) 前置代码是这个