数据来源:链接:https://pan.baidu.com/s/18Z3WTf1_Y5ze_ALzBAZJfg
提取码:0thc
北京积分落户数据分析
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
#导入数据
luohu_data = pd.read_csv('./bj_luohu.csv',index_col='id')
#describe()展示一些基本信息
luohu_data.describe()
| score | |
|---|---|
| count | 6019.000000 |
| mean | 95.654552 |
| std | 4.354445 |
| min | 90.750000 |
| 25% | 92.330000 |
| 50% | 94.460000 |
| 75% | 97.750000 |
| max | 122.590000 |
可以看出共计6019个人通过积分落户,积分最高分122.59分,最低90.75分,平均分95.65分。
print(luohu_data.head())
name birthday company score
id
1 杨效丰 1972-12 北京利德华福电气技术有限公司 122.59
2 纪丰伟 1974-12 北京航天数据股份有限公司 121.25
3 王永 1974-05 品牌联盟(北京)咨询股份公司 118.96
4 杨静 1975-07 中科专利商标代理有限责任公司 118.21
5 张凯江 1974-11 北京阿里巴巴云计算技术有限公司 117.79
从数据中可以看出:可以从生日,公司,分数中挖掘出可用信息
按照维度与指标两方面来进行分析
分析:以公司为维度,以人数为指标进行分析
各公司落户人数及分布
获取每一公司的落户人数并进行排序
#按照company作为维度分组并计算每组个数
#groupby默认会把by的这个列作为索引列返回,可以设置下as_index=False取消
company_data = luohu_data.groupby('company',as_index=False).count()[['company','name']]
company_data
| company | name | |
|---|---|---|
| 0 | ABB(中国)有限公司 | 8 |
| 1 | BONNIER图书文化(北京)有限公司 | 1 |
| 2 | IGT科技开发(北京)有限公司 | 1 |
| 3 | POLYCOM通讯技术(北京)有限公司 | 2 |
| 4 | VIDIA技术服务(北京)有限公司 | 1 |
| 5 | 《中国企业报》股份有限公司 | 2 |
| 6 | 《中国当代医药》杂志社有限公司 | 1 |
| 7 | 《中国汽车报》社有限公司 | 1 |
| 8 | 《中国烟草》杂志社有限公司 | 1 |
| 9 | 《中国经济周刊》杂志社 | 1 |
| 10 | 《中国质量万里行》杂志社 | 1 |
| 11 | 《中国邮政报》社 | 1 |
| 12 | 《中国饲料》杂志社 | 1 |
| 13 | 《信息早报》社 | 1 |
| 14 | 《环境与生活》杂志社有限公司 | 1 |
| 15 | 《环球时报》社 | 5 |
| 16 | 《证券日报》社 | 1 |
| 17 | 一汽丰田汽车销售有限公司 | 12 |
| 18 | 万国数据服务有限公司北京分公司 | 1 |
| 19 | 万图(北京)科技有限公司 | 1 |
| 20 | 万浦投资(中国)有限公司 | 1 |
| 21 | 万达商业管理集团有限公司 | 2 |
| 22 | 万达商业规划研究院有限公司 | 3 |
| 23 | 万达文化旅游规划研究院有限公司 | 5 |
| 24 | 万达酒店设计研究院有限公司 | 2 |
| 25 | 三一重型能源装备有限公司 | 1 |
| 26 | 三人行传媒集团股份有限公司北京分公司 | 1 |
| 27 | 三星信息技术服务(北京)有限公司 | 2 |
| 28 | 三星电子(北京)技术服务有限公司 | 1 |
| 29 | 三星经济研究所股份有限公司北京代表处 | 1 |
| ... | ... | ... |
| 3400 | 飞驰镁物(北京)信息服务有限公司 | 1 |
| 3401 | 首创置业股份有限公司 | 3 |
| 3402 | 首游天地(北京)科技有限公司 | 1 |
| 3403 | 首都信息发展股份有限公司 | 7 |
| 3404 | 首都信息科技发展有限公司 | 1 |
| 3405 | 首都医科大学附属北京康复医院(北京工人疗养院) | 1 |
| 3406 | 首都空港贵宾服务管理有限公司 | 1 |
| 3407 | 首钢京唐钢铁联合有限责任公司北京办事处 | 1 |
| 3408 | 首钢集团有限公司 | 3 |
| 3409 | 香云海会(北京)文化发展有限公司 | 1 |
| 3410 | 香港永新专利商标代理有限公司北京办事处 | 1 |
| 3411 | 马兰拉面快餐连锁有限责任公司 | 1 |
| 3412 | 高伟达软件股份有限公司 | 2 |
| 3413 | 高德信息技术有限公司 | 2 |
| 3414 | 高德软件有限公司 | 3 |
| 3415 | 高盛高华证券有限责任公司 | 1 |
| 3416 | 高等教育出版社有限公司 | 7 |
| 3417 | 高通无线半导体技术有限公司 | 4 |
| 3418 | 高通无线通信技术(中国)有限公司 | 5 |
| 3419 | 麒麟远创软件(中国)有限公司 | 1 |
| 3420 | 麦肯锡(上海)咨询有限公司北京分公司 | 3 |
| 3421 | 默克雪兰诺有限公司 | 4 |
| 3422 | 鼎世新(北京)科技有限公司 | 1 |
| 3423 | 鼎桥通信技术有限公司 | 5 |
| 3424 | 鼎石天元投资(北京)有限公司 | 1 |
| 3425 | 龙源(北京)风电工程设计咨询有限公司 | 1 |
| 3426 | 龙田云端(北京)科技有限公司 | 1 |
| 3427 | 龙芯中科技术有限公司 | 1 |
| 3428 | CSB电池科技(北京)有限公司 | 1 |
| 3429 | JFE贸易(北京)有限公司 | 1 |
3430 rows × 2 columns
#重命名列名称
company_data.rename(columns={'name':'people_count'},inplace=True)
#按照人数排序(默认升序)
company_sorted_data = company_data.sort_values('people_count', ascending=False)
company_sorted_data
| company | people_count | |
|---|---|---|
| 1081 | 北京华为数字技术有限公司 | 137 |
| 312 | 中央电视台 | 73 |
| 2457 | 北京首钢建设集团有限公司 | 57 |
| 3082 | 百度在线网络技术(北京)有限公司 | 55 |
| 3194 | 联想(北京)有限公司 | 48 |
| 214 | 中国民生银行股份有限公司 | 40 |
| 2648 | 国际商业机器(中国)投资有限公司 | 39 |
| 1334 | 北京外企人力资源服务有限公司 | 39 |
| 174 | 中国国际技术智力合作有限公司 | 29 |
| 2514 | 华为技术有限公司北京研究所 | 27 |
| 3049 | 爱立信(中国)通信有限公司 | 26 |
| 3201 | 腾讯科技(北京)有限公司 | 24 |
| 2405 | 北京阿里巴巴云计算技术有限公司 | 23 |
| 240 | 中国石油天然气股份有限公司管道北京输油气分公司 | 20 |
| 3070 | 用友软件股份有限公司 | 20 |
| 434 | 中铁建工集团有限公司 | 19 |
| 356 | 中煤建设集团工程有限公司 | 17 |
| 118 | 中信银行股份有限公司 | 17 |
| 2815 | 微软(中国)有限公司 | 17 |
| 1507 | 北京市京才实业开发总公司 | 16 |
| 157 | 中国光大银行股份有限公司 | 16 |
| 3072 | 甲骨文(中国)软件系统有限公司 | 16 |
| 3270 | 西门子(中国)有限公司 | 16 |
| 422 | 中铁三局集团第四工程有限公司 | 15 |
| 438 | 中铁电气化局集团有限公司 | 15 |
| 2649 | 国际商业机器(中国)有限公司北京分公司 | 14 |
| 3379 | 阿里巴巴(北京)软件服务有限公司 | 14 |
| 324 | 中建二局安装工程有限公司 | 14 |
| 2899 | 施耐德电气(中国)有限公司 | 14 |
| 1271 | 北京四方继保自动化股份有限公司 | 14 |
| ... | ... | ... |
| 1348 | 北京大学口腔医院 | 1 |
| 1349 | 北京大安振业商业管理有限公司 | 1 |
| 1350 | 北京大宝化妆品有限公司 | 1 |
| 1351 | 北京大希科技有限公司 | 1 |
| 1352 | 北京大恒图像视觉有限公司 | 1 |
| 1353 | 北京大成律师事务所 | 1 |
| 1325 | 北京城际文化传播有限公司 | 1 |
| 1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
| 1323 | 北京城建弘通物业管理有限责任公司 | 1 |
| 1322 | 北京城建八建设发展有限责任公司 | 1 |
| 1299 | 北京国锐信达动力科技有限公司 | 1 |
| 1300 | 北京国锐信达税务师事务所有限公司 | 1 |
| 1301 | 北京国际度假区有限公司 | 1 |
| 1302 | 北京国际电气工程有限责任公司 | 1 |
| 1303 | 北京国际(SOS)救援中心 | 1 |
| 1304 | 北京图书大厦有限责任公司 | 1 |
| 1305 | 北京图优谱信息技术有限公司 | 1 |
| 1306 | 北京圈网互动文化传播有限公司 | 1 |
| 1307 | 北京土人城市规划设计有限公司 | 1 |
| 1308 | 北京圣先福农种子有限公司 | 1 |
| 1309 | 北京圣凯盟商贸有限公司 | 1 |
| 1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
| 1311 | 北京圣彬科贸有限公司 | 1 |
| 1313 | 北京在线九州信息技术服务有限公司 | 1 |
| 1314 | 北京地下铁道通成广告有限公司 | 1 |
| 1315 | 北京地林伟业科技股份有限公司 | 1 |
| 1316 | 北京坚果先生科技有限公司 | 1 |
| 1317 | 北京坤和兴业科技有限公司 | 1 |
| 1318 | 北京埃文特朗科技有限公司 | 1 |
| 3429 | JFE贸易(北京)有限公司 |
#按条件过滤
#只有一人的公司
company_sorted_data[company_sorted_data['people_count']==1]
| company | people_count | |
|---|---|---|
| 2390 | 北京长京益康信息科技有限公司 | 1 |
| 2392 | 北京长亮新融科技有限公司 | 1 |
| 2447 | 北京首科力通机电设备有限责任公司 | 1 |
| 1922 | 北京泰瑞特认证有限责任公司 | 1 |
| 2448 | 北京首都创业集团有限公司 | 1 |
| 2312 | 北京通美晶体技术有限公司 | 1 |
| 2313 | 北京通航法荷航飞机航线维修有限责任公司 | 1 |
| 2374 | 北京铭源金丰石油化工产品销售有限公司 | 1 |
| 1932 | 北京浩海创新科技有限公司 | 1 |
| 2377 | 北京银天科创信息技术有限公司 | 1 |
| 2311 | 北京通畅电信规划设计院有限公司 | 1 |
| 2321 | 北京邮电大学世纪学院 | 1 |
| 2322 | 北京采菊科技有限公司 | 1 |
| 2446 | 北京首汽智行科技有限公司 | 1 |
| 1936 | 北京海利尔智能化科技有限公司 | 1 |
| 1931 | 北京浩普诚华科技有限公司 | 1 |
| 2376 | 北京银地房地产开发有限责任公司 | 1 |
| 2323 | 北京释天环境科技有限公司 | 1 |
| 2463 | 北京驷骑中天网络工程技术有限公司 | 1 |
| 2325 | 北京金万众空调制冷设备有限责任公司 | 1 |
| 2324 | 北京量科邦信息技术有限公司 | 1 |
| 2464 | 北京骏蓝拓科技有限公司 | 1 |
| 2379 | 北京银河智慧机电设备有限公司 | 1 |
| 2378 | 北京银河昊星置业投资有限公司 | 1 |
| 2460 | 北京香侬发动机科技有限公司 | 1 |
| 2320 | 北京邦融汇金融信息服务有限公司 | 1 |
| 2373 | 北京铭润创展科技有限公司 | 1 |
| 2399 | 北京阳光汇点数码科技有限公司 | 1 |
| 2388 | 北京锦途互动广告有限公司 | 1 |
| 2459 | 北京首钢股份有限公司 | 1 |
| ... | ... | ... |
| 1348 | 北京大学口腔医院 | 1 |
| 1349 | 北京大安振业商业管理有限公司 | 1 |
| 1350 | 北京大宝化妆品有限公司 | 1 |
| 1351 | 北京大希科技有限公司 | 1 |
| 1352 | 北京大恒图像视觉有限公司 | 1 |
| 1353 | 北京大成律师事务所 | 1 |
| 1325 | 北京城际文化传播有限公司 | 1 |
| 1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
| 1323 | 北京城建弘通物业管理有限责任公司 | 1 |
| 1322 | 北京城建八建设发展有限责任公司 | 1 |
| 1299 | 北京国锐信达动力科技有限公司 | 1 |
| 1300 | 北京国锐信达税务师事务所有限公司 | 1 |
| 1301 | 北京国际度假区有限公司 | 1 |
| 1302 | 北京国际电气工程有限责任公司 | 1 |
| 1303 | 北京国际(SOS)救援中心 | 1 |
| 1304 | 北京图书大厦有限责任公司 | 1 |
| 1305 | 北京图优谱信息技术有限公司 | 1 |
| 1306 | 北京圈网互动文化传播有限公司 | 1 |
| 1307 | 北京土人城市规划设计有限公司 | 1 |
| 1308 | 北京圣先福农种子有限公司 | 1 |
| 1309 | 北京圣凯盟商贸有限公司 | 1 |
| 1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
| 1311 | 北京圣彬科贸有限公司 | 1 |
| 1313 | 北京在线九州信息技术服务有限公司 | 1 |
| 1314 | 北京地下铁道通成广告有限公司 | 1 |
| 1315 | 北京地林伟业科技股份有限公司 | 1 |
| 1316 | 北京坚果先生科技有限公司 | 1 |
| 1317 | 北京坤和兴业科技有限公司 | 1 |
| 1318 | 北京埃文特朗科技有限公司 | 1 |
| 3429 | JFE贸易(北京)有限公司 | 1 |
2626 rows × 2 columns
可以得到仅落户1人的公司有2626家
company_sorted_data[company_sorted_data['people_count']<5]
| company | people_count | |
|---|---|---|
| 1400 | 北京太极信息系统技术有限公司 | 4 |
| 2661 | 外语教学与研究出版社有限责任公司 | 4 |
| 1417 | 北京奥鹏远程教育中心有限公司 | 4 |
| 1681 | 北京搜狐新媒体信息技术有限公司 | 4 |
| 2382 | 北京银龙知识产权代理有限公司 | 4 |
| 1055 | 北京北大维信生物科技有限公司 | 4 |
| 1076 | 北京千龙新闻网络传播有限责任公司 | 4 |
| 2375 | 北京银信长远科技股份有限公司 | 4 |
| 296 | 中国铁路北京局集团有限公司北京电务段 | 4 |
| 295 | 中国铁路北京局集团有限公司北京建筑段 | 4 |
| 3224 | 苏伊士水务工程有限责任公司 | 4 |
| 290 | 中国铁路北京局集团有限公司丰台车辆段 | 4 |
| 2404 | 北京阿尔卡特朗讯科技有限公司 | 4 |
| 2571 | 卡特彼勒(中国)投资有限公司 | 4 |
| 260 | 中国联合网络通信有限公司北京市分公司 | 4 |
| 1166 | 北京南北天地科技股份有限公司 | 4 |
| 2533 | 华泰保险集团股份有限公司 | 4 |
| 2527 | 华夏银行股份有限公司北京分行 | 4 |
| 1283 | 北京国华电力有限责任公司 | 4 |
| 3281 | 谷歌信息技术(中国)有限公司 | 4 |
| 319 | 中工国际工程股份有限公司 | 4 |
| 1489 | 北京小米移动软件有限公司 | 4 |
| 1434 | 北京字节跳动网络技术有限公司 | 4 |
| 1575 | 北京康海天达科技有限公司 | 4 |
| 505 | 亿阳信通股份有限公司北京分公司 | 4 |
| 3092 | 瞻博网络研发(北京)有限公司 | 4 |
| 2130 | 北京经纬恒润科技有限公司 | 4 |
| 1663 | 北京拓尔思信息技术股份有限公司 | 4 |
| 3094 | 石化盈科信息技术有限责任公司北京分公司 | 4 |
| 3028 | 渣打银行(中国)有限公司北京分行 | 4 |
| ... | ... | ... |
| 1348 | 北京大学口腔医院 | 1 |
| 1349 | 北京大安振业商业管理有限公司 | 1 |
| 1350 | 北京大宝化妆品有限公司 | 1 |
| 1351 | 北京大希科技有限公司 | 1 |
| 1352 | 北京大恒图像视觉有限公司 | 1 |
| 1353 | 北京大成律师事务所 | 1 |
| 1325 | 北京城际文化传播有限公司 | 1 |
| 1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
| 1323 | 北京城建弘通物业管理有限责任公司 | 1 |
| 1322 | 北京城建八建设发展有限责任公司 | 1 |
| 1299 | 北京国锐信达动力科技有限公司 | 1 |
| 1300 | 北京国锐信达税务师事务所有限公司 | 1 |
| 1301 | 北京国际度假区有限公司 | 1 |
| 1302 | 北京国际电气工程有限责任公司 | 1 |
| 1303 | 北京国际(SOS)救援中心 | 1 |
| 1304 | 北京图书大厦有限责任公司 | 1 |
| 1305 | 北京图优谱信息技术有限公司 | 1 |
| 1306 | 北京圈网互动文化传播有限公司 | 1 |
| 1307 | 北京土人城市规划设计有限公司 | 1 |
| 1308 | 北京圣先福农种子有限公司 | 1 |
| 1309 | 北京圣凯盟商贸有限公司 | 1 |
| 1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
| 1311 | 北京圣彬科贸有限公司 | 1 |
| 1313 | 北京在线九州信息技术服务有限公司 | 1 |
| 1314 | 北京地下铁道通成广告有限公司 | 1 |
| 1315 | 北京地林伟业科技股份有限公司 | 1 |
| 1316 | 北京坚果先生科技有限公司 | 1 |
| 1317 | 北京坤和兴业科技有限公司 | 1 |
| 1318 | 北京埃文特朗科技有限公司 | 1 |
| 3429 | JFE贸易(北京)有限公司 | 1 |
3265 rows × 2 columns
落户人数小于5人的公司有3265家
#落户人数前50的公司
company_sorted_data.head(50)
| company | people_count | |
|---|---|---|
| 1081 | 北京华为数字技术有限公司 | 137 |
| 312 | 中央电视台 | 73 |
| 2457 | 北京首钢建设集团有限公司 | 57 |
| 3082 | 百度在线网络技术(北京)有限公司 | 55 |
| 3194 | 联想(北京)有限公司 | 48 |
| 214 | 中国民生银行股份有限公司 | 40 |
| 2648 | 国际商业机器(中国)投资有限公司 | 39 |
| 1334 | 北京外企人力资源服务有限公司 | 39 |
| 174 | 中国国际技术智力合作有限公司 | 29 |
| 2514 | 华为技术有限公司北京研究所 | 27 |
| 3049 | 爱立信(中国)通信有限公司 | 26 |
| 3201 | 腾讯科技(北京)有限公司 | 24 |
| 2405 | 北京阿里巴巴云计算技术有限公司 | 23 |
| 240 | 中国石油天然气股份有限公司管道北京输油气分公司 | 20 |
| 3070 | 用友软件股份有限公司 | 20 |
| 434 | 中铁建工集团有限公司 | 19 |
| 356 | 中煤建设集团工程有限公司 | 17 |
| 118 | 中信银行股份有限公司 | 17 |
| 2815 | 微软(中国)有限公司 | 17 |
| 1507 | 北京市京才实业开发总公司 | 16 |
| 157 | 中国光大银行股份有限公司 | 16 |
| 3072 | 甲骨文(中国)软件系统有限公司 | 16 |
| 3270 | 西门子(中国)有限公司 | 16 |
| 422 | 中铁三局集团第四工程有限公司 | 15 |
| 438 | 中铁电气化局集团有限公司 | 15 |
| 2649 | 国际商业机器(中国)有限公司北京分公司 | 14 |
| 3379 | 阿里巴巴(北京)软件服务有限公司 | 14 |
| 324 | 中建二局安装工程有限公司 | 14 |
| 2899 | 施耐德电气(中国)有限公司 | 14 |
| 1271 | 北京四方继保自动化股份有限公司 | 14 |
| 357 | 中煤建设集团有限公司 | 14 |
| 3083 | 百度时代网络技术(北京)有限公司 | 13 |
| 2722 | 威睿信息技术(中国)有限公司 | 13 |
| 3231 | 英特尔(中国)有限公司北京分公司 | 13 |
| 482 | 亚信科技(中国)有限公司 | 13 |
| 3093 | 石化盈科信息技术有限责任公司 | 13 |
| 3378 | 阿里巴巴科技(北京)有限公司 | 12 |
| 17 | 一汽丰田汽车销售有限公司 | 12 |
| 2882 | 新华三技术有限公司北京研究所 | 12 |
| 194 | 中国建筑第二工程局有限公司 | 12 |
| 180 | 中国国际金融股份有限公司 | 12 |
| 3278 | 诺基亚通信系统技术(北京)有限公司 | 11 |
| 2524 | 华夏幸福基业股份有限公司北京管理咨询分公司 | 11 |
| 862 | 北京京东尚科信息技术有限公司 | 11 |
| 239 | 中国石油天然气股份有限公司北京销售分公司 | 10 |
| 3060 | 瑞斯康达科技发展股份有限公司 | 10 |
| 2369 | 北京铁路局 | 10 |
| 2018 | 北京用友政务软件有限公司 | 10 |
| 553 | 冠捷显示科技(中国)有限公司 | 10 |
| 2526 | 华夏银行股份有限公司 | 9 |
#前50的公司落户人数
num_50 = company_sorted_data.head(50).sum()['people_count']
print('前50的公司落户人数共有{}人,占总人数{}%'.format(num_50,round((num_50/6619)*100,2)))
前50的公司落户人数共有1122人,占总人数16.95%
#积分分数分布
#按照步长为5分桶统计下分数的分布
bins = np.arange(90,130,5)
bins = pd.cut(luohu_data['score'],bins)
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts
score
(90, 95] 3344
(95, 100] 1757
(100, 105] 653
(105, 110] 218
(110, 115] 32
(115, 120] 13
(120, 125] 2
Name: score, dtype: int64
积分主要分布在(90,95]区间内
#将index处理下
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

#年龄分布
#出生日期转换为年龄
luohu_data['age'] = ((pd.to_datetime('2019-09')-pd.to_datetime(luohu_data['birthday']))/pd.Timedelta('365 days'))
luohu_data.describe()
| score | age | |
|---|---|---|
| count | 6019.000000 | 6019.000000 |
| mean | 95.654552 | 43.130723 |
| std | 4.354445 | 2.814236 |
| min | 90.750000 | 34.020000 |
| 25% | 92.330000 | 41.200000 |
| 50% | 94.460000 | 43.110000 |
| 75% | 97.750000 | 45.120000 |
| max | 122.590000 | 61.210000 |
积分落户最小年龄为34岁,最大年龄61岁,平均年龄43岁。
bins = np.arange(20,70,5)
bins = pd.cut(luohu_data['age'],bins)
bin_counts = luohu_data['age'].groupby(bins).count()
bin_counts
age
(20, 25] 0
(25, 30] 0
(30, 35] 4
(35, 40] 770
(40, 45] 3682
(45, 50] 1535
(50, 55] 18
(55, 60] 8
(60, 65] 2
Name: age, dtype: int64
积分落户年龄主要分布在(40,45]年龄段内。
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

7334

被折叠的 条评论
为什么被折叠?



