导读:北京积分落户制度已经实行两年了,2018年申报积分落户的124657名申请人中6019位落户人员取得落户资格。
而去年2019年,申报积分落户人数为106403名,实际公示名单共6007人。
这些人来自哪些公司呢?这些公司都是哪些行业的?他们年龄多大?
作者: 董汇标MINUS 来源: 凹凸玩数据(ID: alltodata) 原文首发于知乎: https://zhuanlan.zhihu.com/p/97217536luohu_data = pd.read_csv('./bj_luohu.csv', index_col = 'id')
luohu_data.head(5)

company_data = luohu_data.groupby('company', as_index=False).count()[['company', 'name']]
company_data.rename(columns={'name':'人数'}, inplace=True) # 替换 1
company_data.rename(columns={'company':'公司名'},inplace=True) # 替换 2
company_data.head(20)

company_sorted_data = company_data.sort_values('人数', ascending=False)
company_sorted_data.head(15) # 前15

cut_bins = np.arange(90, 130, 5) #分段设置
bins = pd.cut(luohu_data['score'], cut_bins) # 将落户数据,按照cutbins来切一下
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts.head(10)

plt.figure(figsize=(15,8))
plt.rcParams['font.family']='Arial Unicode MS'
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.size']=12
x_name=['90-95','95-100','100-105','105-110','110-115','115-120','120-125']
sns.barplot(x_name,bin_counts)
plt.ylabel('人数')
plt.xlabel('分数区间')
for x, y in zip(range(7), bin_counts):
plt.text(x, y+20 , y, ha='center', va='bottom')
plt.show()

luohu_data['age'] = (pd.to_datetime('2018-07') - pd.to_datetime(luohu_data['birthday'])) / pd.Timedelta('365 days')
luohu_data.describe()

mean=luohu_data['age'].mean()
std =luohu_data['age'].std()
# 得到上下限
lower , upper =mean -3*std , mean+3*std
print('均值',mean)
print('标准差',std)
print('下限',lower)
print('上限',upper)
得到:

#fig.set_size_inches(15,5) # 设置画布大小
sns.distplot(luohu_data['age'])


有话要说?
Q: 你觉得哪座城市落户最难?
欢迎留言与大家分享
猜你想看?
新手学Python, 如何从"入门到入土"变为"从入门到快速上车"?
机器学习入门必读:6种简单实用算法及学习曲线、思维导图
2020大风口!什么是图神经网络?有什么用?终于有人讲明白了
学AI哪家强?2019全球排行清华第1,北大第2

原来你也在看