计数成分的新回归模型
1. 引言
计数成分是总和为固定常数的非负整数向量。对于这类数据,最常用的分布是多项分布,它有很多优点,但在协方差矩阵的参数化方面表现不佳。为克服这一问题,一个有趣的方法是将多项分布与定义在单形上的分布进行复合。
例如,将多项分布与狄利克雷分布复合,就得到了著名的狄利克雷 - 多项分布(DM)。DM 分布比多项分布多一个参数,能更好地拟合实际数据,但其协方差结构可能仍然过于僵化。本文旨在为计数成分提出一种新的分布,并在此基础上开发回归模型。
2. 计数向量的分布
-
多项分布 :假设一个随机实验有 D 个互斥结果,重复 n 次。用向量 $Y = (Y_1, …, Y_D)^⊺$ 总结每个结果的出现次数,且 $\sum_{r=1}^{D} Y_r = n$。多项分布的概率质量函数(pmf)为:
[f_M(y; \pi) = \frac{n!}{\prod_{r=1}^{D}(y_r!)} \prod_{r=1}^{D} \pi_r^{y_r}]
其中,$\pi = (\pi_1, …, \pi_D)^⊺$ 是 D 维概率向量,位于 D 部分单形 $S_D = {q \in R^D : q_r > 0, \sum_{r=1}^{D} q_r = 1}$。多项分布的前两阶矩为:
[E [Y] = n\pi]
[V (Y) = n (Diag(\pi) - \pi\pi^⊺)]
可以看出,一旦均值向量确定,就没有参数来建模协方差矩阵,这会导致模型对实际数据集的拟合效果很差。 -
超级会员免费看
订阅专栏 解锁全文
1253

被折叠的 条评论
为什么被折叠?



