粉煤灰地质聚合物抗压强度数据分析与关系型石油钻井数据特征约简
1. 引言
知识发现于数据库(KDD)是众多数据科学家从先前收集的二手数据中提取知识的过程。在分析大数据时,若科学家没有先验知识,KDD 会变得困难,因为理解和选择用于命题化(将存储在多个表中的原始关系数据转换为存储在一个表中的命题数据)的相关特征需要大量知识。
KDD 过程分为选择、预处理、转换、数据挖掘和解释等阶段。在常规流程中,KDD 的选择阶段通常由领域专家完成,但专家并非总是可用。对于大数据,KDD 选择过程尤为重要,因为对每个特征的预处理和转换可能会消耗大量资源。
石油钻井数据具有多源、大数据和特征及表格层面的极端稀疏性等特点,使得在没有领域和数据库知识的情况下进行 KDD 选择非常困难。FSbP(命题化前的特征选择)是 KDD 选择阶段的自动化特征选择方法,此前 Motl 曾记录过一种 FSbP 方法,但石油钻井数据的 FSbP 因可扩展性和缺失数据问题需要不同的处理方式。
2. FSbP 与 DAHFR
在机器学习的预处理阶段,缺失数据常被视为需要解决的问题。石油钻井数据独特之处在于其稀疏且大量缺失,不同公司的数据缺失模式因数据录入模式、业务实践和语义而异,这阻碍了 KDD 的预处理和转换阶段。
传统处理缺失数据的方法可能导致用户忽略高缺失率的特征,但这些特征可能对最终模型非常重要。DAHFR(数据库属性健康特征约简)是一种半自动的基于过滤的特征约简方法,通过测量数据属性健康(DAH)作为相对缺失率,让数据科学家能够观察、检测、记录和比较 KDD 早期的缺失数据模式。
3. 数据情况
本研究使用的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



