大数据特征约简与光纤传感器涂层研究
1. 大数据特征约简——DAHFR 过程
在处理大数据集时,尤其是在特征选择和预处理(FSbP)阶段,数据缺失是一个备受关注的问题,同时业务和数据库知识往往有限。DAHFR(数据自适应特征约简)过程在这种情况下具有重要价值。
DAHFR 过程能够对大数据集进行特征观察和约简,并且在多源数据协调尝试中具有可扩展性。初始特征约简过程完成后,DAH 得分能为用户提供关于那些在数据分析阶段需要更多关注的特征信息,帮助确定数据缺失的类型和来源,以及在数据挖掘阶段处理缺失数据的最佳方法。
在知识发现与数据挖掘(KDD)项目中,当需要对具有相似数据库设计的多源数据进行协调时,DAHFR 过程表现出色,因为它不需要用户预先深入了解每个数据源的规则和语义。
不过,DAHFR 仍有一个领域有待探索,即特征选择的阈值选择。目前使用的是 60%列健康度及以上的阈值,相关实验正在积极进行,以确定不同阈值对数据挖掘模型预测准确性的影响。
以下是 DAHFR 过程的优势总结:
|优势|描述|
| ---- | ---- |
|处理数据缺失|在数据缺失问题严重的情况下有效进行特征约简|
|多源数据协调|可扩展用于多源数据的协调|
|提供特征信息|通过 DAH 得分帮助确定数据缺失情况和处理方法|
|减少业务知识依赖|在 KDD 项目中减少对业务知识的需求|
2. 光纤传感器研究背景
2.1 光纤传感器的特点
20 世纪 70 年代低损耗光纤的引入引发了全球学术界的关注。光纤传感器(FOS)是一种非侵入式传感器,
超级会员免费看
订阅专栏 解锁全文
1813

被折叠的 条评论
为什么被折叠?



