数据探索、分析与呈现全攻略
1. 数据探索与分析的起步
在熟悉了一些数据处理示例后,就可以开始对数据进行分析了。数据探索和分析有所不同,分析数据时,我们会提出问题并尝试用现有数据解答,可能会合并和分组数据集以创建有效的统计样本;而探索数据时,只是研究数据集的趋势和属性,不试图回答特定问题或得出结论。
1.1 提出问题
在探索过程中,我们可以提出一些问题,例如:
- 为什么非洲的童工现象似乎更为频繁?
- 亚洲和南美洲存在哪些童工现象的异常值?
- 感知到的腐败现象与童工问题有怎样的联系?
对于自己的数据集,也可以参考这些示例,找出想要研究的趋势。任何统计异常值或聚合趋势都可能指向值得研究的有趣问题。
1.2 聚焦问题
可以聚焦特定问题并通过分析来解答,例如我们关注非洲感知到的腐败与童工问题之间的联系,即政府腐败或对政府腐败的感知是否会影响社区禁止童工的能力。回答这个问题需要更多的调查和数据集,可以阅读相关文章、采访该领域的专家,还可以选择非洲的特定地区或一系列国家进行更深入的研究。
2. 数据分离与聚焦
为了进一步分析,需要分离出非洲国家的数据并深入研究。以下是分离非洲数据的代码:
africa_cpi_cl = cpi_and_cl.where(lambda x: x['continent'] == 'africa')
for r in africa_cpi_cl.order_by('Total (%)', reverse=True).rows:
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



