时间序列数据挖掘kdd2017Mining Novel Multivariate Relationships in Time Series Data Using Correlation Network

最新推荐文章于 2022-08-22 12:20:43 发布

原创最新推荐文章于 2022-08-22 12:20:43 发布 · 718 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#时间序列 #数据挖掘

时间序列专栏收录该内容

9 篇文章

订阅专栏

本篇论文是上一篇Tripoles的继续篇。
我之前因为Tripoles论文中的一点错误给作者发了邮件，作者发给我了他最近的论文，是Tripoles的继续篇。
Tripoles是讲述的三极时间序列相关，本篇开始研究多极相关。

Mining Novel Multivariate Relationships in Time Series Data Using Correlation Network

abstract

摘要描述了多极在时间序列数据中很有趣，发现最有趣的多极是相关网络中的负相关，由于多极系统存在的少，因此可有枚举出来。
总之：找multipoles

introduction

一、与以前工作的不同
以前的两极工作中，发现了环境地区的负相关和脑神经两域正相关。

本论文定义了multipoles多极条件：
（1）变量显示出强的线性相关性
（2）每个变量对线性相关性做出显著的贡献
即，从集合中排除任何变量显著地削弱了r之间的线性相关性的强度。
定义了相关强度判定标准：
根据标准化（零均值，单位方差）的向量的线性组合的方差来定义线性相关性。线性组合的方差越小，线性组合就越恒定，相关性越高。
定义变量对线性相关的贡献：
贡献=移除此变量时现行相关度的减少
linear gain：
包含变量对线性依赖的最小贡献

二、multipoles多极线性相关的例子：

T_0，T_1，T_2表示三个地点的交通量的时序数据，下面左列是将三个数据标准化后，下图右列第一是将三个数据线性组合后。可见线性组合后方差可以达到0.08。去掉每一个变量后，其余两个变量的线性组合最好的方差如右图下三。

根据论文中计算的到的数据：
T_0的贡献=0.33-0.08
T_1的贡献=0.58-0.08
T_2的贡献=0.74-0.03
linear gain=min{0.33,0.58,0.74}-0.03=0.25

三、提出找multipoles的方法：
通过计算变量贡献和leaner gain

naive approach
枚举出所有的集合（排列组合），判断是不是能构成多极
这种问题等价于相关网络上的clique-enumeration problem（团列举），每个节点是一个时间序列，边的权重是两个时间序列的相关系数。
论文提出的问题公式是基于以下两个关键的经验观测：
一个多极的线性增益的上限取决于
（1）多极的大小
（2）多极中两个变量之间的最大相关强度
Clique Based Multipole Search (CoMEt) approach
（1）找promising candidates（可以限制对多极团的搜索（剪枝），希望找出强的leaner gain的团）
（2）作者发现大多数具有高线性增益的多极子候选出现在相关网络中，要么表现为负团簇，要么表现为负等效团簇
negative cliques（negative pairwise correlations ）
negative-equivalent cliques（可以反转一个成员或多个成员的符号变成negative cliques）
（3）因为找promising candidates要求是更高的leaner gain，因此找promising candidates就比找所有multipoles团少的多，也就快了。但会loss completeness，也就是找的multipoles团不全
CoMEtExtended
是CoMEt的扩展版本，通过一个参数实现效率和completeness的折衷，所找的团可以不只是negative cliques和negative-equivalent cliques

四、文章的贡献

定义multipoles
提出算法找multipoles
提出评估框架
应用在两个领域：气候，脑神经

DEFINITIONS

s：时间序列的集合
x：时间序列的矩阵，T：一个时间序列里有T个值，k：共有k个时间序列，因此每一列表示一个时间序列
$∑\sum$ ：x的协方差矩阵，由于数据标准化了，方差=1，因此协方差矩阵=相关系数矩阵

NLC：将x乘上一个单位向量l，使用单位向量l，将x的每一行线性组合，得到新的组合向量，可以理解成将原来的k个时间序列线性组合形成的新的向量。l可理解成是一个权重向量。
LVNLC：找一个l，使得xl得到的新的向量方差最小

由下图的1，2，3我们可以看出如果这几个实现序列十分的线性相关，那么线性组合后的向量就会趋近于零向量（因为标准化后的均值为0）可以参考下面的统计图z=… ，此时的方差也趋近于0，若这些时间序列都是正交的，那么均值就是1.

Linear Dependence: 1-（xl得到的新的向量的方差）

5、6的目的可以参照之前的图（下图），在将多个时间序列线性加权值之后，得到的新的序列的方差小。6中，若心序列的方差越小Linear Dependence就越大，
因此Linear Dependence值越大，这几个时间序列越相关。

在新的定理列出来前，我想插一个PCA的数学推导过程，里面有
（1）方差
（2）协方差
（3）协方差矩阵
（4）对角化
（5）特征值
（6）特征根
的关系。
字有些丑。。

对Linear Dependence的另一种表达形式

推导过程：
集合S的Linear Dependence是小于或等于其超集的Linear Dependence。
证明显而易见
leaner gain
其实化简之后和之前给出的公式一样
leaner gain的简化
由于超集的leaner dependence总是大于本集（8），因此leaner gain可以化简写成：

leaner gain的意义在于，高的leaner gain可以保证集合内的任何一个单位都很有用，缺少一个那么leaner dependence就会下降很大，可以设置一个阈值使得leaner gain要大于这个阈值才选成multipoles，这样集合中就可以避免冗余。
作者举了一个例子，若将之前的交通例子再加入一个T4，这个T4是T3的副本，但由于T4是T3的副本，去掉T4对leaner dependence的影响不大，也就是leaner gain比较小，于是T4完全没有必要加入，这样multipoles集合就避免了冗余。因此一个高的leaner gain 的阈值避免了多重共线性。

根据以上的思考，给出最终的multipoles描述和整篇论文要实现的问题：

（1）multipoles定义在两个参数之上，要求multipoles的leaner dependence大于一个阈值，leaner gain也要大于一个阈值
（2）论文的目标是找数据中的最大multipoles，也就是这个multipole他不能再向里面加入其他的任何时间序列，已经是最好的了。

method

论文中提到的方法是基于一些观察得到的
首先给出了一个定义self-canceling：
一个集合是self-canceling，当且仅当他的LVNLC的每个weight是非负的
不是self-canceling的集合可以通过符号反转来变成self-canceling集合
观察得到：

如果所有集合s中的self-canceling版本中的对的关系是负相关的，那么这个s的leaner gain会更高。并且如果想要这个集合的leaner gain高于一个阈值，那么这个集合中至少有一对相关系数大于一个系数
2.
因此，要想找一个集合的leaner gain值大于一个阈值，那么就可以自动忽略大于xxx的multipoles

因此得到了一个集合是promising candidate的条件：

（1）里面的时间序列的个数不能多余一个值
（2）每对的相关性是负相关
negative clique定义
集合中每对的相关性是负相关
negative-equivalent clique定义
可以通过改变时间序列的符号，变成negative clique
作者给出了一个关于negative-equivalent clique的定理：

如果一个集合是negative-equivalent clique，那么他能被分成两个negative clique，并且这两个集合之间的关系都是非负的。
（证明。。我没有看，我觉得直观上就能说的清楚）

下面就到了终点部分，最重要的算法部分（其实根据前面的铺垫，我们就已经可以知道要怎么做了哈哈哈）

CoMEt

算法的方法：
（1）根据之前的两个观察，找到promising candidate
（2）判断promising candidate是不是multipole，并找到真promising candidate（去掉冗余）

其他的细节算法论文中给出，解释比较详细，在这里就不列上了。

CoMEtExtended

重新定义promising candidate，不再局限于negative clique和negative-equivalent clique，得到的结果更加完整，是efficiency和complete的折衷。
修改方法：
放宽每一对都要是负相关的限制，只要相关性低于一个阈值即可，因此形成了pseudo negative

此时就修改了CoMEt，形成了CoMEtExtended

DATA AND EXPERIMENTAL EVALUATION

依旧使用环境数据和脑神经数据
具体的一步步分析和评估我就不写出来了
列出一个他们的成果
找到了全球气候的多极时许数据相关：

总结

我看这篇论文的时间比上一篇要长一些，主要是这一篇论文的数学功底的要求比上一篇更强了。涉及到比较高级一点的线代知识。我大部分时间都用在对定理的证明上了。但是后来对方法的阅读非常的快，因为之前的一步步铺垫，及时没有给出算法，自己也差不多能够才出来。
优点：新颖，新颖，很新颖。用了简单的线性关系，就能找出相关性，和现在流行的复杂的神经网络不一样。论文的整个研究方向是值得深入研究的。
缺点：方法牵强，论文的核心算法竟然是基于对一组数据的观察。。大跌眼镜。。
希望以后作者可以在研究研究如何提出更靠谱的算法。我感觉这个方向有点意思，和以往的人工智能学习知识不同，这篇论文提出的方法真的是可以发现知识，从而给其他领域提出更好的发展借鉴，所以有时间我可以继续研究研究。