数据探索与分析:感知腐败与童工率的关联研究
1. 数据初步观察
当查看列名时,我们发现新表包含了两个原始表的所有列。简单统计数据行数为 93 行,但实际上我们并不需要所有的数据点(原始表 pci_table 有 177 行,ranked 有 108 行),我们更关注数据之间的关联。对新表按 CPI 分数排序并取前 10 行后,得到如下有趣信息:
| 国家 | CPI 分数 - 童工率 |
| — | — |
| 阿富汗 | 8.0 - 10.3% |
| 索马里 | 8.0 - 49.0% |
| 伊拉克 | 16.0 - 4.7% |
| 也门 | 18.0 - 22.7% |
| 乍得 | 19.0 - 26.1% |
| 赤道几内亚 | 19.0 - 27.8% |
| 几内亚比绍 | 19.0 - 38.0% |
| 海地 | 19.0 - 24.4% |
| 柬埔寨 | 20.0 - 18.3% |
| 布隆迪 | 21.0 - 26.3% |
除伊拉克和阿富汗外,CPI 分数极低(即腐败感知程度高)的国家存在较高的童工率。我们可以使用 agate 库的内置方法来研究数据集中的这种关联。
2. 识别相关性
2.1 皮尔逊相关性分析
我们想确定政府腐败感知与童工率是否相关,首先使用简单的皮尔逊相关性分析。由于 agate 库正在将此相关性功能集成到 agate - stats 库中,目前我们可以使用 numpy 进行计算。
操作步骤如下:
1. 若未安装 numpy,运行
超级会员免费看
订阅专栏 解锁全文
4229

被折叠的 条评论
为什么被折叠?



