探索性数据分析、伦理考量与基线模型评估
1. 探索性数据分析(EDA)概述
探索性数据分析(EDA)常常可以对存储的数据运行高度优化和并行化的 SQL 查询。这意味着,即使对于大型数据集,为 EDA 进行数据聚合和总结也是可行的。虽然 SQL 常被视为比数据框语言更底层、更复杂,但许多工程师精通 SQL,可能更倾向于使用它。
在选择最能描述特定数据集的统计量时可能会令人困扰,因为在开始调查之前,很难明确哪些因素是重要的,而且计算不同类型数据特征的方法众多。不过,有自动化的方法可以覆盖这些方面。例如,有工具可以自动生成涵盖单变量、分布和基于目标(特征)分析的报告。
1.1 示例分析
以智能建筑的温度数据为例,团队成员可以通过 SQL 查询来了解数据情况:
-- 按年份统计温度读数数量
select count(*), year from temperature_readings group_by year;
结果显示传感器读数在各年份分布较为均匀,其中一年的读数比其他年份多 140,000 个,这是因为该年是闰年,多了一天,属于正常情况。
-- 按月份统计温度读数数量
Select count (*), month from temperature_readings group_by month;
然而,这个查询结果显示所有读数都标记为 12 月,这表明数据存在全局问题。此时,可视化数据可能有助于更清晰地了解实际情况。
<
超级会员免费看
订阅专栏 解锁全文
2156

被折叠的 条评论
为什么被折叠?



