维度约简算法全解析与信用卡欺诈检测应用
1. 线性维度约简方法
线性维度约简方法是将原始数据线性投影到低维空间,常见的有PCA及其变种,还有随机投影。
1.1 增量主成分分析(Incremental PCA)
对于非常大且无法全部加载到内存中的数据集,可以采用增量PCA。它将数据分成小批量进行处理,每个批量可以适应内存。批量大小可以手动设置或自动确定。以下是实现代码:
from sklearn.decomposition import IncrementalPCA
n_components = 784
batch_size = None
incrementalPCA = IncrementalPCA(n_components=n_components,
batch_size=batch_size)
X_train_incrementalPCA = incrementalPCA.fit_transform(X_train)
X_train_incrementalPCA = pd.DataFrame(data=X_train_incrementalPCA, index=train_index)
X_validation_incrementalPCA = incrementalPCA.transform(X_validation)
X_validation_incrementalPCA = pd.DataFrame(data=X_validation_incrementalPCA, index=validation_index)
sca
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



