数据中的命名趋势与IPython使用技巧
一、命名趋势分析
在数据分析中,我们可以利用数据集来探究各种有趣的命名趋势。这里我们使用前1000名的数据集进行相关研究。
- 按性别拆分数据
首先,我们可以很容易地将前1000名的名字拆分为男孩和女孩两部分:
python boys = top1000[top1000.sex == 'M'] girls = top1000[top1000.sex == 'F'] -
绘制简单时间序列图
像每年叫John或Mary的人数这样的简单时间序列可以绘制出来,但需要进行一些数据处理才能更有用。我们可以创建一个按年份和名字统计总出生人数的透视表:
python total_births = top1000.pivot_table('births', rows='year', cols='name', aggfunc=sum)
然后,我们可以使用DataFrame的plot方法绘制几个名字的时间序列图:
python subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']] subset.plot(subplots=True, figsize=(12, 10), grid=False, title="Number of births per year")
从图中可能会得出这些名字在美国人群中不再受欢迎的结论,但实际情况可能更复杂。
超级会员免费看
订阅专栏 解锁全文
479

被折叠的 条评论
为什么被折叠?



