这段文字主要讲解了如何使用 Pandas 库分析交通拦截数据,并重点关注性别是否影响车辆搜查的概率。
首先,介绍了数据集中有两个关键列:驾驶员性别和是否搜查车辆。
然后,以“搜索率”为基础,通过 value_counts
和 normalize
方法计算出所有拦截事件中车辆被搜查的比例,大约为 3.5%。
接着,介绍了一种更简洁的方法:直接使用 mean()
方法计算布尔值列的平均值,从而获得该列中值为 True
的比例,即搜索率。
最后,作者使用 groupby
和 mean()
方法对不同性别的驾驶员进行分组,并计算每个性别对应的搜查率,以此来分析性别是否影响车辆搜查的概率。
这段文字的目的是教导如何使用 Pandas 库进行数据分析,并通过一个具体的例子说明了如何分析性别是否影响车辆搜查概率。
这是我 2018 年 PyCon Pandas 教程的第 4 部分。 本视频涵盖以下主题:值计数、布尔值运算、按多个列分组、相关性与因果关系。