数据集合介绍
1. 人工数据集
1.1 高斯数据
为了说明主成分分析(PCA)网络,我们从零均值高斯分布中抽取样本,且每个样本相互独立。对于一个n维输入样本,$x_1$ 从 $N(0, σ_1)$ 中抽取,$x_2$ 从 $N(0, σ_2)$ 中抽取,以此类推,其中 $σ_1 > σ_2 > … > σ_n$。这样,输入数据协方差矩阵的最大特征值来自第一个输入 $x_1$,第二大特征值来自 $x_2$,依此类推。
在某些研究中,使用了主成分具有特定划分的数据,例如第一个主成分代表前两个输入,第二个主成分代表后三个输入。在另一些研究里,会对高斯输入进行改变,使其变得“有趣”。还有研究使用了人工数据集,其中 $x_1$ 是一个四维向量,其每个元素都从零均值高斯分布 $N(0, 1)$ 中抽取;$x_2$ 是一个三维向量,其元素同样从 $N(0, 1)$ 中抽取。为了引入两个向量之间的相关性,会额外生成一个来自 $N(0, 1)$ 的样本,并将其添加到每个向量的第一个元素上。之后对数据进行归一化处理,以确保每个输入的方差相同。此外,还使用了降秩数据集。
1.2 条形数据
一种标准数据集由输入值的方形网格组成,如果第 $i$ 个方块为黑色,则 $x_i = 1$,否则为 0。不过这些模式并非随机模式,每个输入由多个随机选择的水平或垂直线条组成,网络需要识别这些线条的存在。需要注意的是,每条线都可被视为网格上像素变黑的独立来源,一个特定像素可能会同时被水平和垂直线条两次变黑,我们需要识别出这两个来源。通常在一个 8×8 的网格中使用 64 个输入。
在 8×8 的网格中,16 条可能的线条中的每一条都以
超级会员免费看
订阅专栏 解锁全文
7534

被折叠的 条评论
为什么被折叠?



