水力压裂引起的地质材料力学性质变化的可视化研究
1. 降维技术概述
降维是处理高维数据的重要手段,它能够减少高维数据中不需要的特征,主要包括噪声(方差)、冗余(高度相关的变量)以及数据不足(特征数量远大于样本数量)等问题。不过,降维也会导致一定的信息损失。降维方法主要分为特征选择和特征提取两类:
- 特征选择 :基于目标函数从原始特征集中选择最相关的特征,所选特征保留其在原始特征集中的原有特性和含义。常见的特征选择方法有方差阈值、递归特征消除、ANOVA F值和互信息测试等。
- 特征提取 :找到一组新构建的、数量较少的特征,这些特征是原始特征的某种组合,是对原始特征的非物理变换,与原始特征集不同。流行的特征提取方法包括主成分分析(PCA)、因子分析、ISOMAP和独立成分分析等。在相关研究中,采用主成分分析(PCA)作为特征提取的降维技术。
2. 特征工程的影响
为了研究特征工程的效果,对比了基于K-means聚类的两种情况:一种是对剪切波形数据集先进行短时傅里叶变换(STFT),再进行PCA处理;另一种是先使用平稳统计方法,再进行PCA处理。通过PCA对特征工程后的数据集进行降维,避免维度灾难,以提高聚类方法的性能。
- 数据降维情况 :
- 180个STFT衍生特征分别降维为67和88个PCA衍生成分,可解释98%的方差,用于在轴向和 frontal 平面可视化地质力学变化区域。
- 18个平稳统计特征降维为12个PCA衍生成分,可解释98%的方差,用于在轴向和 frontal 平面可视化变化区域。
超级会员免费看
订阅专栏 解锁全文
384

被折叠的 条评论
为什么被折叠?



