基于语义引导机器学习的环境大数据推荐
1. 引言
在信息技术领域,大数据指的是规模庞大且复杂的数据集合,传统数据库管理工具和数据处理应用难以对其进行处理。在气象学、遗传学、复杂物理模拟和环境研究等诸多领域,科学家们常常因处理大规模数据集而受限。
无线技术推动了环境传感器网络的自动化数据采集,使得可用于分析的传感器数据量大幅增加。然而,随着数据量的增长,数据的复杂性也随之提升,大规模传感器的维护成为难题。此外,环境监测过程中的不确定性因素愈发明显,这源于先进通信技术带来的透明度提高。数据的获取、存储、搜索、共享、分析和可视化都面临挑战,传感器网络的数据可用性有限且质量不佳,这会导致自然资源管理系统(如农业水资源管理、天气预报、作物管理等)失效。因此,迫切需要从多个独立来源(如传感器网络、环境模拟模型和历史数据)捕获和整合环境知识,实现按需互补知识集成。
2. 大数据来源
本研究选取了五个不同的环境数据源,用于大规模统一互补知识集成:
- Long Paddock SILO数据库 :由昆士兰气候变化卓越中心(QCCCE)运营,基于澳大利亚气象局(BOM)4760个气象站的数据。
- 澳大利亚水资源可用性项目(AWAP)数据库 :用于监测澳大利亚大陆陆地水平衡的状态和趋势,采用模型 - 数据融合方法。
- 澳大利亚宇宙射线传感器网络(CosmOz)数据库 :近实时土壤湿度测量网络,由CSIRO、莫纳什大学、查尔斯达尔文大学和新南威尔士大学合作开发。
- 澳大利亚土壤资源信息系统(ASRIS)数
超级会员免费看
订阅专栏 解锁全文
535

被折叠的 条评论
为什么被折叠?



