在线社交网络流感趋势追踪
1. 流感模型结构
1.1 模型构建背景
在预测流感样疾病(ILI)活动时,可利用当前和过去的在线社交网络(OSN)活动数据以及前几周的疾病控制与预防中心(CDC)数据。其中,使用前几周的 ILI 活动来预测当前的 ILI 活动构成了模型的自回归部分,而前几周的 OSN 数据则作为外生输入。这里的 CDC 数据指的是因流感样疾病就诊的百分比(也称为 ILI 率)。由于简单线性 ARX 模型在结构上忽略了医生就诊百分比在 0% - 100% 之间,而 OSN 用户数量下限为 0 的事实,因此引入了针对 CDC 数据的对数链接函数和对 OSN 数据的对数变换。
1.2 逻辑 ARX 模型
逻辑 ARX 模型的表达式如下:
[
\log\left(\frac{y(t)}{1 - y(t)}\right) = \sum_{i = 1}^{m}a_i\log\left(\frac{y(t - i)}{1 - y(t - i)}\right) + \sum_{j = 0}^{n - 1}b_j\log(u(t - j)) + c + e(t)
]
其中:
- (t) 表示周索引;
- (y(t)) 表示第 (t) 周因 ILI 就诊的医生就诊百分比;
- (u(t)) 表示第 (t) 周发布与流感相关推文的唯一 Twitter/Facebook 用户数量;
- (e(t)) 是独立随机变量序列;
- (c) 是用于考虑偏移的常数项。
在测试中,唯一 OSN 用户 (u(t)) 的定义为:无转发且在综合征经过时间为 0 周内没有来自