探索性相关性分析:从双数据流中提取共享高阶结构
1. 引言
在现代数据分析中,探索性相关性分析(Exploratory Correlation Analysis, ECA)作为一种新兴技术,旨在从两个数据流中提取共享的高阶结构。ECA不仅能揭示数据流之间的复杂关系,还能在一定程度上忽略单一数据流中的高阶结构,从而提供更精确的分析结果。本文将详细介绍ECA的原理、应用及其与典型相关分析(Canonical Correlation Analysis, CCA)的联系。
2. ECA的原理
ECA的理论基础来源于神经算法,特别是基于赫布学习规则(Hebbian Learning Rule)的负反馈网络。该方法通过引入非线性函数来搜索数据流之间的高阶相关性,而不仅仅是传统的线性相关性。具体来说,ECA通过最大化两个数据流投影之间的非高斯性来识别共享的高阶结构。
2.1 数学模型
假设我们有两个数据流 ( x_1 ) 和 ( x_2 ),以及两个对应的投影数据 ( y_1 ) 和 ( y_2 ),基向量分别为矩阵 ( W ) 和 ( V ) 的行。ECA的目标函数可以表示为:
[ J(W, V) = E(g(W^T x_1)^T g(V^T x_2)) + \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \lambda_{ij}(w_i^T w_j - a_{ij}) + \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \mu_{ij}(v_i^T v_j - b_{ij}) ]
其中,( g(\cdot) ) 是一个非线性函数,(