5、粉煤灰地质聚合物抗压强度数据分析与关系型石油钻井数据特征约简

粉煤灰地质聚合物抗压强度数据分析与关系型石油钻井数据特征约简

1. 引言

知识发现于数据库(KDD)是众多数据科学家从先前收集的二手数据中提取知识的过程。在分析大数据时,若科学家没有先验知识,KDD 会变得困难,因为理解和选择用于命题化(将存储在多个表中的原始关系数据转换为存储在一个表中的命题数据)的相关特征需要大量知识。

KDD 过程分为选择、预处理、转换、数据挖掘和解释等阶段。在常规流程中,KDD 的选择阶段通常由领域专家完成,但专家并非总是可用。对于大数据,KDD 选择过程尤为重要,因为对每个特征的预处理和转换可能会消耗大量资源。

石油钻井数据具有多源、大数据和特征及表格层面的极端稀疏性等特点,使得在没有领域和数据库知识的情况下进行 KDD 选择非常困难。FSbP(命题化前的特征选择)是 KDD 选择阶段的自动化特征选择方法,此前 Motl 曾记录过一种 FSbP 方法,但石油钻井数据的 FSbP 因可扩展性和缺失数据问题需要不同的处理方式。

2. FSbP 与 DAHFR

在机器学习的预处理阶段,缺失数据常被视为需要解决的问题。石油钻井数据独特之处在于其稀疏且大量缺失,不同公司的数据缺失模式因数据录入模式、业务实践和语义而异,这阻碍了 KDD 的预处理和转换阶段。

传统处理缺失数据的方法可能导致用户忽略高缺失率的特征,但这些特征可能对最终模型非常重要。DAHFR(数据库属性健康特征约简)是一种半自动的基于过滤的特征约简方法,通过测量数据属性健康(DAH)作为相对缺失率,让数据科学家能够观察、检测、记录和比较 KDD 早期的缺失数据模式。

3. 数据情况

本研究使用的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值