缩尾处理
如果样本量很大的时候,为了防止异常值对研究结果的影响,通常对连续变量进行缩尾处理。缩尾处理的思想:将超出变量特定百分位范围的数值替换为其特定百分位数值的方法
对于离群值的处理有取对数和缩尾处理(暂时接触到的两种),都是为了让数据更平滑、稳定。
均值和中位数的差异检验
实证分析中,经常需要对比多个变量在两个子样本组中的均值或者中位数是否存在显著差异。
我们选取的是在99%的置信水平下(1%的显著性水平下),用P值来决定是否显著。
在stata中来计算
*-在1%水平上下进行缩尾处理
winsor2 var1 var2 var3 , cuts(1 99) replace
*-ttest:单个变量组间均值差异检验(独立样本)
ttest Debt_cost, by(Oversea_CEO) unequal level(99)
*-median:单个变量组间中位数差异检验
*-通过exact选项计算Fisher's exact test方法下的显著性水平
median Debt_cost, by(Oversea_CEO) exact