数据分析中的线性模型与计数比例数据建模
1. 线性模型统一概念
线性模型有一个有用的统一概念,每个线性模型都可以写成 $y_i = E[y_i|x_i] + \epsilon_i$,其中 $\epsilon_i \sim N(0, \sigma^2)$。$E[y_i|x_i]$ 的形式会根据解释变量的性质或特定的建模框架而变化,但其形式对于线性模型始终是线性的。具体形式如下表所示:
| 变量情况 | 技术 | $E[y_i|x_i]$ |
| — | — | — |
| 一个连续变量 | 简单线性回归 | $\beta_0 + \beta_1x_i$ |
| 一个因子 | 单因素方差分析 | $\mu + \alpha_i$ |
| 两个因子 | 双因素方差分析 | $\mu + \alpha_i + \beta_j + (\alpha\beta) {ij}$ |
| 两个或更多变量:连续变量和因子的混合 | 多元回归 | $\beta_0 + \beta_1x {1i} + \cdots + \beta_px_{pi}$ |
这个统一概念有两个好处:一是让我们看到每个线性模型都有相同的形式,因此在每次分析中都可以使用相同的工具;二是清楚地表明我们是将给定 $x_i$ 时 $y_i$ 的均值(或期望值)建模为解释变量的线性函数。
2. ANOVA 恒等式
每个模型(线性或非线性)都可以看作“DATA = SIGNAL + NOISE”。从统计学角度来看,这意味着将数据的变异性归因于不同的来源。在线性模型中,这一概念体现在 ANOVA 恒等式中:
$Total SS
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



