本篇论文是上一篇Tripoles的继续篇。
我之前因为Tripoles论文中的一点错误给作者发了邮件,作者发给我了他最近的论文,是Tripoles的继续篇。
Tripoles是讲述的三极时间序列相关,本篇开始研究多极相关。
Mining Novel Multivariate Relationships in Time Series Data Using Correlation Network
abstract
摘要描述了多极在时间序列数据中很有趣,发现最有趣的多极是相关网络中的负相关,由于多极系统存在的少,因此可有枚举出来。
总之:找multipoles
introduction
一、与以前工作的不同
以前的两极工作中,发现了环境地区的负相关和脑神经两域正相关。
- 本论文定义了multipoles多极条件:
(1)变量显示出强的线性相关性
(2)每个变量对线性相关性做出显著的贡献
即,从集合中排除任何变量显著地削弱了r之间的线性相关性的强度。 - 定义了相关强度判定标准:
根据标准化(零均值,单位方差)的向量的线性组合的方差来定义线性相关性。线性组合的方差越小,线性组合就越恒定,相关性越高。 - 定义变量对线性相关的贡献:
贡献=移除此变量时现行相关度的减少 - linear gain:
包含变量对线性依赖的最小贡献
二、multipoles多极线性相关的例子:

T_0,T_1,T_2表示三个地点的交通量的时序数据,下面左列是将三个数据标准化后,下图右列第一是将三个数据线性组合后。可见线性组合后方差可以达到0.08。去掉每一个变量后,其余两个变量的线性组合最好的方差如右图下三。

根据论文中计算的到的数据:
T_0的贡献=0.33-0.08
T_1的贡献=0.58-0.08
T_2的贡献=0.74-0.03
linear gain=min{0.33,0.58,0.74}-0.03=0.25
三、提出找multipoles的方法:
通过计算变量贡献和leaner gain
- naive approach
枚举出所有的集合(排列组合),判断是不是能构成多极
这种问题等价于相关网络上的clique-enumeration problem(团列举),每个节点是一个时间序列,边的权重是两个时间序列的相关系数。
论文提出的问题公式是基于以下两个关键的经验观测:
一个多极的线性增益的上限取决于
(1)多极的大小
(2)多极中两个变量之间的最大相关强度 - Clique Based Multipole Search (CoMEt) approach
(1)找promising candidates(可以限制对多极团的搜索(剪枝),希望找出强的leaner gain的团)
(2)作者发现大多数具有高线性增益的多极子候选出现在相关网络中,要么表现为负团簇,要么表现为负等效团簇
negative cliques(negative pairwise correlations )
negative-equivalent cliques(可以反转一个成员或多个成员的符号变成negative cliques)
(3)因为找promising candidates要求是更高的leaner gain,因此找promising candidates就比找所有multipoles团少的多,也就快了。但会loss completeness,也就是找的multipoles团不全 - CoMEtExtended
是CoMEt的扩展版本,通过一个参数实现效率和completeness的折衷,所找的团可以不只是negative cliques和negative-equivalent cliques
四、文章的贡献
- 定义multipoles
- 提出算法找multipoles
- 提出评估框架
- 应用在两个领域:气候,脑神经
DEFINITIONS
- s:时间序列的集合
- x:时间序列的矩阵,T:一个时间序列里有T个值,k:共有k个时间序列,因此每一列表示一个时间序列
- ∑\sum∑:x的协方差矩阵,由于数据标准化了,方差=1,因此协方差矩阵=相关系数矩阵
- NLC:将x乘上一个单位向量l,使用单位向量l,将x的每一行线性组合,得到新的组合向量,可以理解成将原来的k个时间序列线性组合形成的新的向量。l可理解成是一个权重向量。
- LVNLC:找一个l,使得xl得到的新的向量方差最小

由下图的1,2,3我们可以看出如果这几个实现序列十分的线性相关,那么线性组合后的向量就会趋近于零向量(因为标准化后的均值为0)可以参考下面的统计图z=… ,此时的方差也趋近于0,若这些时间序列都是正交的,那么均值就是1.

- Linear Dependence: 1-(xl得到的新的向量的方差)

5、6的目的可以参照之前的图(下图),在将多个时间序列线性加权值之后,得到的新的序列的方差小。6中,若心序列的方差越小Linear Dependence就越大,
因此Linear Dependence值越大,这几个时间序列越相关。

在新的定理列出来前,我想插一个PCA的数学推导过程,里面有
(1)方差
(2)协方差
(3)协方差矩阵
(4)对角化
(5)特征值
(6)特征根
的关系。
字有些丑。。

-
对Linear Dependence的另一种表达形式

推导过程:

-
集合S的Linear Dependence是小于或等于其超集的Linear Dependence。
证明显而易见

-
leaner gain
其实化简之后和之前给出的公式一样

-
leaner gain的简化
由于超集的leaner dependence总是大于本集(8),因此leaner gain可以化简写成:

leaner gain的意义在于,高的leaner gain可以保证集合内的任何一个单位都很有用,缺少一个那么leaner dependence就会下降很大,可以设置一个阈值使得leaner gain要大于这个阈值才选成multipoles,这样集合中就可以避免冗余。
作者举了一个例子,若将之前的交通例子再加入一个T4,这个T4是T3的副本,但由于T4是T3的副本,去掉T4对leaner dependence的影响不大,也就是leaner gain比较小,于是T4完全没有必要加入,这样multipoles集合就避免了冗余。因此一个高的leaner gain 的阈值避免了多重共线性。
根据以上的思考,给出最终的multipoles描述和整篇论文要实现的问题:

(1)multipoles定义在两个参数之上,要求multipoles的leaner dependence大于一个阈值,leaner gain也要大于一个阈值
(2)论文的目标是找数据中的最大multipoles,也就是这个multipole他不能再向里面加入其他的任何时间序列,已经是最好的了。
method
论文中提到的方法是基于一些观察得到的
首先给出了一个定义self-canceling:
一个集合是self-canceling,当且仅当他的LVNLC的每个weight是非负的
不是self-canceling的集合可以通过符号反转来变成self-canceling集合
观察得到:
如果所有集合s中的self-canceling版本中的对的关系是负相关的,那么这个s的leaner gain会更高。并且如果想要这个集合的leaner gain高于一个阈值,那么这个集合中至少有一对相关系数大于一个系数
2. 
因此,要想找一个集合的leaner gain值大于一个阈值,那么就可以自动忽略大于xxx的multipoles
因此得到了一个集合是promising candidate的条件:

(1)里面的时间序列的个数不能多余一个值
(2)每对的相关性是负相关
negative clique定义
集合中每对的相关性是负相关
negative-equivalent clique定义
可以通过改变时间序列的符号,变成negative clique
作者给出了一个关于negative-equivalent clique的定理:

如果一个集合是negative-equivalent clique,那么他能被分成两个negative clique,并且这两个集合之间的关系都是非负的。
(证明。。我没有看,我觉得直观上就能说的清楚)
下面就到了终点部分,最重要的算法部分(其实根据前面的铺垫,我们就已经可以知道要怎么做了哈哈哈)
CoMEt
算法的方法:
(1)根据之前的两个观察,找到promising candidate
(2)判断promising candidate是不是multipole,并找到真promising candidate(去掉冗余)

其他的细节算法论文中给出,解释比较详细,在这里就不列上了。
CoMEtExtended
重新定义promising candidate,不再局限于negative clique和negative-equivalent clique,得到的结果更加完整,是efficiency和complete的折衷。
修改方法:
放宽每一对都要是负相关的限制,只要相关性低于一个阈值即可,因此形成了pseudo negative

此时就修改了CoMEt,形成了CoMEtExtended
DATA AND EXPERIMENTAL EVALUATION
依旧使用环境数据和脑神经数据
具体的一步步分析和评估我就不写出来了
列出一个他们的成果
找到了全球气候的多极时许数据相关:

总结
我看这篇论文的时间比上一篇要长一些,主要是这一篇论文的数学功底的要求比上一篇更强了。涉及到比较高级一点的线代知识。我大部分时间都用在对定理的证明上了。但是后来对方法的阅读非常的快,因为之前的一步步铺垫,及时没有给出算法,自己也差不多能够才出来。
优点:新颖,新颖,很新颖。用了简单的线性关系,就能找出相关性,和现在流行的复杂的神经网络不一样。论文的整个研究方向是值得深入研究的。
缺点:方法牵强,论文的核心算法竟然是基于对一组数据的观察。。大跌眼镜。。
希望以后作者可以在研究研究如何提出更靠谱的算法。我感觉这个方向有点意思,和以往的人工智能学习知识不同,这篇论文提出的方法真的是可以发现知识,从而给其他领域提出更好的发展借鉴,所以有时间我可以继续研究研究。
8381

被折叠的 条评论
为什么被折叠?



