线性回归模型关键知识解析
1. p值与置信区间
在数据分析中,p值是一个常见的统计指标,但它存在一定的局限性。小的p值并不一定意味着有重要的效应,大的p值也不能简单地认为是缺乏重要效应的表现。过度依赖p值可能会导致非常具有误导性的结果。
相比之下,置信区间是一个更可靠的选择。使用置信区间有两个关键要点:
- 区间的宽度反映了估计量的准确性。
- 区间的位置能让我们对效应的大小有一个估计。
例如,如果βi的置信区间不包含0,但位置非常接近0,那么该效应可能较小,或许不应将其称为“显著”效应。而如果区间接近0甚至包含0,且区间很宽,这表明我们对该效应的了解有限。
对于一些形如H0 : θ ≤ c,H1 : θ > c的检验,有人会反对“几乎总是先验地知道H0为假”这一观点。但这种观点存在问题,因为几乎总是存在测量误差,可能源于有限精度的机器测量或抽样偏差(抽样的总体比预期的更窄或有偏差)。此外,还可能存在θ > c,但θ - c非常小,差异可以忽略不计的情况。
2. 缺失值处理
数据清洗是数据分析中不可避免的环节,因为大多数数据都存在“脏数据”,有些数据可能是错误的,或者存在缺失值。
在处理缺失值方面,R语言表现出色,它将缺失值编码为NA。R会检查数据中的NA值(这会导致执行速度稍慢),通常会通过省略至少有一个NA值的观测值来处理。R有一个函数 complete.cases() 可以标记这些观测值。
然而,这种完全案例法看似合理,实际上可能会产生偏差。例如,在研究收入时,如果最富有的人往往不填写收入空白,偏差效应就很明显
超级会员免费看
订阅专栏 解锁全文
2292

被折叠的 条评论
为什么被折叠?



