线性回归:从简单到多元的深入解析
1. 简单线性回归中分类变量的解读与处理
1.1 分类变量结果的集体解读
在回归分析里,对于基于 k 水平分类变量的结果,进行集体解读至关重要。例如在研究吸烟对身高的影响时,当所有二元虚拟系数的 p 值都不显著,就只能得出吸烟对身高没有明显影响的结论。但要是其中一个水平的 p 值很小,具有高度显著性,那就意味着这里所定义的吸烟因素整体上对响应变量有统计学上可检测到的影响,即便其他两个水平的 p 值仍然很高。
1.2 改变参考水平
有时候,可能需要改变自动选择的参考水平。改变基线会导致不同系数的估计,这意味着单个 p 值可能会发生变化,但因子的整体显著性结果不会受影响。改变参考水平主要是为了便于解释,比如在某些临床试验分析中,“安慰剂”相对于“药物 A”和“药物 B”作为治疗变量,“安慰剂”就是一个直观自然的基线。
在 R 中,可以使用内置的 relevel 函数快速重新定义参考水平。例如,若想将不吸烟者作为参考水平,可使用以下代码:
SmokeReordered <- relevel(survey$Smoke, ref = "Never")
levels(SmokeReordered)
relevel 函数会将“Never”类别移到新因子向量的首位。若使用 SmokeReordered 而非原始的 survey$Smoke 列再次拟合模型,就能得到与三种不同吸烟水平相
超级会员免费看
订阅专栏 解锁全文
2454

被折叠的 条评论
为什么被折叠?



