日光气候数据预处理研究
1. 引言
随着计算机软硬件技术的发展和数据采集方法的成熟,各领域收集的数据呈指数级增长。然而,设备故障、环境噪声干扰和人工输入错误等,导致数据采集过程中出现诸多质量问题。数据预处理能够有效解决这些问题,输出干净、准确且简洁的数据。
同时,随着科技发展和人们生活水平的提高,能源需求不断上升,但地球上的石油和煤炭等能源有限。为节约有限能源,人们对自然光的利用愈发关注。利用自然光降低照明能耗对人类至关重要,而建筑利用自然光照明的关键因素是天空亮度分布,因此天空亮度分布规律是主要研究对象。日光气候数据是研究天空亮度分布规律的重要参考,为获得更好的研究结果,需要更高质量的气候数据。
2. 数据质量与数据预处理
现实世界中存在大量数据,数据越多问题也越多,大致可分为三类:不完整数据(缺少属性值)、噪声数据(包含错误或偏离预期的异常值)和不一致数据(如分类项目的部门代码存在差异)。众所周知,“输入垃圾,输出垃圾”,低质量数据集无法得到高质量结果。数据预处理是对原始数据进行清洗、集成、转换和缩减等一系列处理步骤,即将脏数据转化为干净数据,有助于提高原始数据质量,还能提升后续处理的效率和准确性。高质量决策必须基于高质量数据,因此数据预处理的重要性显而易见。
2.1 数据质量指标
数据质量反映数据的价值,数据质量越高,价值越大。数据的后续应用必须基于高质量数据,而数据预处理的目的就是输出高质量数据。不同领域衡量数据质量的标准不同,一般来说,衡量数据质量的标准如下:
- 准确性 :正确数据值与数据源数据值的一致程度,即“噪声”数据应尽可能少。
-
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



