样本因子分解与分析
1. 样本与因子矩阵的基本概念
在样本分析中,单个样本是样本矩阵 (S) 的行,而单个因子是因子矩阵 (F) 的行。这种排列方式虽然在文献中常见,但与通常仅使用列向量的约定有所不同。为处理这种符号上的不一致,我们继续使用列向量符号来表示单个样本 (s(i)) 和因子 (f(i)),并将 (S) 和 (F) 分别视为由 (s(i)^T) 和 (f(i)^T) 的行组成。
原本有 (N \times M) 个量的问题,通过因子分解转化为了 (N \times P + P \times M) 个量的问题。这种转化是否构成简化取决于 (P) 的值(即 (N \times P + P \times M) 与 (N \times M) 的大小比较)以及因子的物理解释。当因子具有特别有意义的解释时,例如在矿物分析中,我们可能愿意容忍参数数量的增加。
当因子矩阵 (F) 已知时,可以使用最小二乘法来确定系数 (C)。将方程 (S = CF) 转置为 (F^T C^T = S^T),然后可将其转化为标准形式 (Gm = d),其中 (d) 是 (S^T) 的给定列,(m) 是 (C^T) 的对应列,(G = F^T)。然而,在许多情况下,因子的数量 (P) 和因子矩阵 (F) 本身都是未知的。
因子的数量 (P) 没有上限,但通常最多需要 (P = M) 个因子来精确表示任何一组样本(即每个元素对应一个因子)。实际上,由于测量噪声的存在,确定 (P) 的最小值往往有些模糊。而且,如果近似 (S \approx CF) 足够好,我们可能会选择使用小于精确表示数据所需的 (P) 值。
即使指定了 (P),确定 (C) 和 (F) 的过程仍然不
超级会员免费看
订阅专栏 解锁全文
1877

被折叠的 条评论
为什么被折叠?



