【Python 数据科学】分组group by基础

本文通过Python中的pandas库对《DataAnalyst.csv》文件进行数据分析,包括分组计数、求最大值、平均值等操作,并展示了如何使用多字段分组进行更细致的数据分析。
>>>import pandas as pd
>>>df=pd.read_csv('DataAnalyst.csv',encoding='gbk')
#分组并计数
#groupby后面需要跟函数才能显示
>>>df.groupby(by='city').count()
companyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizebusinessZonesfirstTypesecondTypeeducationindustryFieldpositionIdpositionAdvantagepositionNamepositionLablesbottomtopavgworkYear
city
上海969969870969969712969969969969969969969963969969969969
北京414841483726414841483068414241434148414841484148414841294148414841484148
南京828274828251828282828282828182828282
厦门303025303019303030303030303030303030
天津202018202015202020202020202020202020
广州334334295334334226334334334334334334334332334334334334
成都13313311313313335133133133133133133133132133133133133
杭州404404374404404241403403404404404404404403404404404404
武汉696962696949696969696969696969696969
深圳522522473522522363522522522522522522522520522522522522
苏州373730373715373737373737373737373737
西安505039505025505050505050505050505050
长沙252522252514252525252525252525252525
#分组后求组内某一字段的最大值
>>>df.groupby(by='city').avg.max()
city
上海    75.0
北京    75.0
南京    25.0
厦门    25.0
天津    17.5
广州    45.0
成都    65.0
杭州    60.0
武汉    26.5
深圳    75.0
苏州    30.0
西安    35.0
长沙    15.0
Name: avg, dtype: float64
#多字段分组,多重索引
>>>df.groupby(by=['city','workYear']).mean()
companyIdpositionIdbottomtopavg
cityworkYear
上海1-3年56370.2295602.122294e+0610.11006317.29874213.704403
10年以上50283.5000002.186072e+0627.50000042.50000035.000000
1年以下66486.5625002.335498e+066.87500011.8125009.343750
3-5年56284.8338282.148159e+0614.79822025.13056419.964392
5-10年64153.3868612.204261e+0621.14598535.51094928.328467
不限68837.8870972.221343e+067.46774213.32258110.395161
应届毕业生48962.6363642.313271e+065.6060618.6060617.106061
北京1-3年55965.5457992.176951e+0611.34973520.14155915.745647
10年以上67579.7857142.376643e+0634.64285752.85714343.750000
1年以下91526.2500002.409707e+065.6875009.7083337.697917
3-5年51318.6171142.213610e+0615.83947527.52154921.680512
5-10年51625.5091322.262125e+0620.97945234.87442927.926941
不限58820.3210272.158942e+069.04654915.76244012.404494
应届毕业生57623.2912622.275363e+065.2427188.4854376.864078
南京1-3年74551.2916672.184282e+067.00000011.6250009.312500
1年以下82443.0000002.561404e+062.5000005.0000003.750000
3-5年65279.3333332.164212e+0610.75000018.75000014.750000
5-10年21079.2000002.389005e+0615.60000026.20000020.900000
不限60472.2608702.346818e+065.65217410.3913048.021739
应届毕业生30884.5000002.382802e+065.7500009.2500007.500000
厦门1-3年58654.4666671.876766e+067.40000013.26666710.333333
3-5年63641.6000001.940944e+069.60000017.20000013.400000
不限82702.5555562.025943e+067.44444414.66666711.055556
应届毕业生9547.0000002.411738e+065.00000010.0000007.500000
天津1-3年55338.6666672.327896e+064.6666677.3333336.000000
3-5年68648.8000002.272681e+068.40000014.40000011.400000
5-10年66805.0000002.343332e+0615.00000020.00000017.500000
不限89693.1428572.059957e+065.5714299.1428577.357143
应届毕业生81114.0000002.338327e+062.0000004.0000003.000000
广州1-3年58407.5147062.223685e+068.07352913.94852911.011029
.....................
杭州不限59188.0789472.270072e+0610.18421118.55263214.368421
应届毕业生31184.0833332.132055e+066.08333311.4166678.750000
武汉1-3年61891.1000002.074843e+066.00000011.2000008.600000
1年以下78797.0000001.100027e+063.0000004.0000003.500000
3-5年60472.2592592.134416e+069.77777817.66666713.722222
5-10年57453.0000001.987101e+0612.09090920.72727316.409091
不限48843.3750002.452173e+064.2500007.2500005.750000
应届毕业生79294.5000002.403577e+062.5000004.5000003.500000
深圳1-3年66374.3933332.141864e+069.38000016.54000012.960000
10年以上68993.5000002.324062e+0619.50000032.50000026.000000
1年以下73129.5000001.663716e+0610.50000020.00000015.250000
3-5年54833.5376882.155506e+0614.09045225.27135719.680905
5-10年46952.3780492.075490e+0619.53658533.45122026.493902
不限72778.8611112.178372e+068.91666715.44444412.180556
应届毕业生60220.6153851.917779e+066.6923089.9230778.307692
苏州1-3年69105.0000002.285118e+068.54545514.72727311.636364
3-5年41914.2666672.192177e+0610.06666717.53333313.800000
5-10年23127.2857141.969094e+0617.57142931.28571424.428571
不限66902.0000001.689665e+066.33333310.3333338.333333
应届毕业生94.0000002.360554e+065.00000010.0000007.500000
西安1-3年74480.3333332.054798e+065.91666710.7500008.333333
3-5年77698.9230772.302673e+069.76923116.84615413.307692
5-10年55435.8000002.228356e+0614.40000022.60000018.500000
不限78890.1666672.271278e+062.3333334.5000003.416667
应届毕业生7502.0000002.574456e+066.0000009.0000007.500000
长沙1-3年44605.5555562.166399e+067.11111112.3333339.722222
3-5年44933.9000002.178290e+067.80000014.40000011.100000
5-10年7382.0000007.452570e+059.00000012.00000010.500000
不限98598.0000002.201182e+065.0000008.2500006.625000
应届毕业生149263.0000002.430719e+063.0000006.0000004.500000

75 rows × 5 columns

#同时计算分组下某个字段的最大值和最小值
for k,v in df.groupby(by='city'):
    print(k,max(v.avg),min(v.avg))
    print('--'*10)
 上海 75.0 1.5
--------------------
北京 75.0 1.5
--------------------
南京 25.0 1.5
--------------------
厦门 25.0 3.5
--------------------
天津 17.5 3.0
--------------------
广州 45.0 1.5
--------------------
成都 65.0 1.5
--------------------
杭州 60.0 2.5
--------------------
武汉 26.5 1.5
--------------------
深圳 75.0 1.5
--------------------
苏州 30.0 4.0
--------------------
西安 35.0 2.5
--------------------
长沙 15.0 2.5
--------------------
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值