样本因子分解与数据分析
1. 样本与因子矩阵的表示
在数据分析中,我们通常会遇到样本矩阵 (S) 和因子矩阵 (F)。这里,单个样本是样本矩阵 (S) 的行,而单个因子是因子矩阵 (F) 的行。不过,这种表示方式与通常使用列向量的约定有所不同。为了处理这种符号上的不一致,我们仍使用列向量符号来表示单个样本 (s(i)) 和因子 (f(i)),然后将 (S) 和 (F) 分别看作是由 (s(i)^T) 和 (f(i)^T) 的行组成。
我们将一个包含 (N\times M) 个量的问题转化为了包含 (N\times P + P\times M) 个量的问题。这种转化是否构成简化取决于 (P) 的值(即 (N\times P + P\times M) 与 (N\times M) 的大小关系)以及因子的物理解释。当因子具有特别有意义的解释时,比如在矿物分析中,我们可能愿意容忍参数数量的增加。
当因子矩阵 (F) 已知时,可以使用最小二乘法来确定系数 (C)。通过将方程 (F^TC^T = S^T) 转化为标准形式 (Gm = d),其中 (d) 是 (S^T) 的给定列,(m) 是 (C^T) 的相应列,(G = F^T),就可以独立计算 (C^T) 的每一列。然而,在许多情况下,因子的数量 (P) 和因子矩阵 (F) 本身都是未知的。
因子的数量 (P) 没有上限,但通常最多需要 (P = M) 个因子来精确表示任何一组样本(即每个元素对应一个因子)。不过,由于测量噪声的存在,确定 (P) 的最小值往往有些模糊。而且,如果近似 (S\approx CF) 足够好,我们可以选择使用小于精确表示数据所需的 (P) 值。
即使指定了 (P),确定 (
超级会员免费看
订阅专栏 解锁全文
1877

被折叠的 条评论
为什么被折叠?



