调查数据分析:从浅入深的探索
在调查数据分析中,我们可以将其分为浅层分析和深层分析。浅层分析只是对调查收集到的所有数据进行表面的浏览,使用最简单的分析工具突出最少的发现。这些工具虽然本身有用且信息丰富,但只是应该使用的第一批工具,而不是唯一的工具。它们能帮助我们挖掘出一些发现,但仍有很多信息被埋藏。而深层分析则需要通过假设检验和关键关系建模等方式,寻找超越浅层分析所揭示的明显信息之外的洞察。
1. 数据可视化之热力图
在数据可视化方面,热力图是一种有效的工具。假设我们有一个矩阵,如相关矩阵或交叉表,我们可以通过对每个单元格进行颜色编码来展示它。为了更有效地显示矩阵中的关系,使用不同的色调或强度来表示矩阵中值的范围。值处于较低范围的单元格用低颜色强度填充,值处于较高范围的单元格用高颜色强度填充。这样,我们可以根据颜色强度快速识别具有低和高值的单元格。强度可以被解释为“热度”,低强度表示低热,高强度表示高热。为了辅助解释“热度”,需要一个刻度,即温度计或颜色图。我们可以使用调色板来指定颜色图的颜色,一些可用的调色板包括:
- YlGnBu:黄/绿/蓝的变化
- Blues:蓝色的变化
- BuPu:蓝/紫的变化
- Greens:绿色的变化
更多调色板可参考 Seaborn 文档。例如,在酸奶调查的年龄 - 性别分布中就可以使用热力图来展示,如图 3.26 所示。
2. 加权汇总:交叉表和描述性统计
我们可以对交叉表和描述性统计应用权重。首先要验证权重的总和是否等于总体总数。可以使用 Pandas 的 sum 方法或 statsmodels 的 DescrStatsW 函数来完成,该函数会返回一些加权
超级会员免费看
订阅专栏 解锁全文
1113

被折叠的 条评论
为什么被折叠?



