⑧链家房产实例

本文详细介绍了通过Python读取并整合七个CSV文件中的房产数据,包括价格、位置、经纪人等信息,进行了初步的数据清洗和统计分析,展示了数据的分布情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['font.family']='STsong'
data_list=[]
for i in range(1,8):#不包含8
    try:
        data=pd.read_csv('C:/Users/HP/Desktop/Python数据分析及机器学习/源代码/fangchan/lianjia{}.csv'.format(i),encoding='gbk')  #循环读取7个表,format是格式化
    except:
         data=pd.read_csv('C:/Users/HP/Desktop/Python数据分析及机器学习/源代码/fangchan/lianjia{}.csv'.format(i))
    data_list.append(data)
len(data_list)
7
data_list[6].head(2) #第七个表的前两行
cjtaoshumendiancjzongjiazhiweihaopingcjdanjiacjxiaoquxingmingcjzhouqibiaoqiancjloucengcjshijiancongyenianxianbankuai
02莱圳店349.0高级经纪人100% 2049659元/平莱圳家园 1室1厅 70平马博58客户热评西/高楼层/16层签约时间:2016-08-041-2年清河
12莱圳店190.0高级经纪人100% 2035382元/平小营东路5号院 2室1厅 53平马博58客户热评南 北/中楼层/5层签约时间:2015-12-191-2年清河
data=pd.concat(data_list)  #把七个表直接合并在一个表
data.describe()
C:\Users\HP\Anaconda3\lib\site-packages\numpy\lib\function_base.py:3834: RuntimeWarning: Invalid value encountered in percentile
  RuntimeWarning)
cjtaoshucjzongjia
count162227.000000162226.000000
mean29.111923317.481277
std19.607250207.472106
min1.0000000.000000
25%16.000000NaN
50%26.000000NaN
75%38.000000NaN
max186.0000006000.000000
data.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 162227 entries, 0 to 6680
Data columns (total 14 columns):
cjtaoshu          162227 non-null int64
mendian           162214 non-null object
cjzongjia         162226 non-null float64
zhiwei            162226 non-null object
haoping           162226 non-null object
cjdanjia          162226 non-null object
cjxiaoqu          162226 non-null object
xingming          162226 non-null object
cjzhouqi          162226 non-null object
biaoqian          145553 non-null object
cjlouceng         162226 non-null object
cjshijian         162226 non-null object
congyenianxian    162226 non-null object
bankuai           160906 non-null object
dtypes: float64(1), int64(1), object(12)
memory usage: 18.6+ MB
data.head()
cjtaoshumendiancjzongjiazhiweihaopingcjdanjiacjxiaoquxingmingcjzhouqibiaoqiancjloucengcjshijiancongyenianxianbankuai
037红莲北里店251.0店经理97% 14143997元/平红莲北里 3室1厅 57平郭海龙36房东信赖;销售达人;带看活跃南 北/高楼层/6层签约时间:2015-05-244-5年马连道
137红莲北里店159.0店经理97% 14136969元/平红莲南里 1室1厅 43平郭海龙36房东信赖;销售达人;带看活跃南/高楼层/7层签约时间:2015-05-104-5年马连道
237红莲北里店257.0店经理97% 14139046元/平常青藤嘉园 1室1厅 65平郭海龙36房东信赖;销售达人;带看活跃北/低楼层/16层签约时间:2015-04-264-5年马连道
337红莲北里店243.0店经理97% 14141313元/平红莲北里 2室1厅 58平郭海龙36房东信赖;销售达人;带看活跃南 北/高楼层/6层签约时间:2015-04-044-5年马连道
437红莲北里店372.5店经理97% 14142053元/平广安门外大街 3室1厅 88平郭海龙36房东信赖;销售达人;带看活跃东 南 西 北/中楼层/18层签约时间:2015-04-014-5年马连道
data=data[['cjdanjia','cjxiaoqu','cjlouceng','bankuai','xingming','cjzongjia','congyenianxian']] #双中括号是指把要取的列以list形式放里面作为索引
data.head(3)
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
043997元/平红莲北里 3室1厅 57平南 北/高楼层/6层马连道郭海龙251.04-5年
136969元/平红莲南里 1室1厅 43平南/高楼层/7层马连道郭海龙159.04-5年
239046元/平常青藤嘉园 1室1厅 65平北/低楼层/16层马连道郭海龙257.04-5年

缺失值的处理

data.isnull().sum() #sum统计每一列的缺失值总数
cjdanjia             1
cjxiaoqu             1
cjlouceng            1
bankuai           1321
xingming             1
cjzongjia            1
congyenianxian       1
dtype: int64
data[data['cjdanjia'].isnull()]  #具体查看哪条数据是缺失值
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
57119NaNNaNNaNNaNNaNNaNNaN
data.dropna(how='all',inplace=True) #how=all表示全为空时删除,直接更改
(data.isnull()).sum()
cjdanjia             0
cjxiaoqu             0
cjlouceng            0
bankuai           1320
xingming             0
cjzongjia            0
congyenianxian       0
dtype: int64
data.duplicated().sum() #检查重复值情况
19754
data.duplicated(subset=['cjdanjia','cjxiaoqu','cjlouceng']).sum()#查看指定列的各重复值总数
20012
data.sort_values(by='bankuai',inplace=True)  #以bankuai这列进行排序,null值默认最后出现
data.drop_duplicates(subset=['cjdanjia','cjxiaoqu','cjlouceng'],inplace=True)#在表中直接删除指定列的重复值。
data.isnull().sum()

cjdanjia             0
cjxiaoqu             0
cjlouceng            0
bankuai           1135
xingming             0
cjzongjia            0
congyenianxian       0
dtype: int64
data
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
1811134464元/平麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.005年以上
3811953131元/平合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.004-5年
3811855312元/平富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.004-5年
3811766485元/平富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.004-5年
3811655738元/平合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.004-5年
3811558156元/平富力城D区 2室1厅 111平南/高楼层/22层CBD李铁岗650.004-5年
3811457969元/平富力城A区 3室2厅 121平南/高楼层/26层CBD李铁岗706.004-5年
3811359409元/平富力城D区 2室1厅 108平南/低楼层/21层CBD李铁岗645.004-5年
3811265877元/平石韵浩庭 1室1厅 45平东北/高楼层/15层CBD李铁岗300.004-5年
3811173311元/平富力城A区 3室2厅 120平南/高楼层/26层CBD李铁岗882.004-5年
3811090186元/平富力城D区 2室1厅 111平南/低楼层/22层CBD李铁岗1008.004-5年
3810986207元/平富力城D区 2室2厅 112平南/高楼层/16层CBD李铁岗970.004-5年
3810879265元/平合生国际花园 2室2厅 104平西南/中楼层/18层CBD李铁岗828.004-5年
3810725791元/平广渠门外大街路北区 2室1厅 70平西 北/中楼层/18层CBD李铁岗182.084-5年
5085760177元/平世界城 1室--厅 56平南/高楼层/29层CBD李东340.00<1年
5085656897元/平世界城 1室--厅 58平南/高楼层/29层CBD李东330.00<1年
5085560527元/平世界城 1室1厅 76平东 北/高楼层/29层CBD李东460.00<1年
5085465498元/平新城国际 2室1厅 137平东 北/低楼层/31层CBD李东900.00<1年
1032940265元/平苹果社区南区 3室2厅 170平南 北/中楼层/27层CBD孙宁688.004-5年
1032830426元/平苹果社区南区 1室--厅 59平南/低楼层/21层CBD孙宁180.004-5年
1032750942元/平首城国际 2室1厅 88平南/低楼层/28层CBD孙宁452.004-5年
1032651949元/平苹果社区南区 1室1厅 60平北/中楼层/26层CBD孙宁316.004-5年
1032533787元/平苹果社区南区 2室1厅 110平西/中楼层/33层CBD孙宁373.004-5年
1032449238元/平石韵浩庭 2室2厅 108平南 北/中楼层/15层CBD孙宁533.004-5年
3812050943元/平合生国际花园 3室2厅 137平南 北/高楼层/24层CBD李铁岗700.004-5年
1032347068元/平苹果社区南区 1室1厅 55平北/低楼层/22层CBD孙宁260.004-5年
1032148248元/平石韵浩庭 2室2厅 105平南 北/低楼层/15层CBD孙宁508.004-5年
1032041637元/平苹果社区北区 2室1厅 95平西北/中楼层/33层CBD孙宁396.004-5年
1031946879元/平双花园南里一区 2室1厅 120平东/低楼层/22层CBD孙宁567.004-5年
1031842388元/平双花园南里一区 3室1厅 138平西北/低楼层/22层CBD孙宁588.004-5年
........................
663917565元/平米拉小镇 1室--厅 46平南/高楼层/9层NaN张翔82.50<1年
664024176元/平华美橡树岭 1室--厅 45平西/低楼层/6层NaN孙泽明110.00<1年
664142057元/平八角北路 2室1厅 52平西南/高楼层/6层NaN毕佳华220.00<1年
664228359元/平蔚园 2室1厅 67平南 北/高楼层/6层NaN毕佳华190.00<1年
664321405元/平福城上上城五期 2室1厅 83平南 北/中楼层/18层NaN李大松179.50<1年
664427969元/平天洋城 2室1厅 91平东南/中楼层/34层NaN王彩云256.00<1年
664517872元/平福城上上城三季 3室1厅 108平南 北/低楼层/23层NaN王彩云194.00<1年
664620092元/平东贸国际 1室--厅 43平西/低楼层/27层NaN王彩云88.00<1年
664748226元/平红居斜街 2室1厅 65平南 北/地下室/6层NaN张莉318.00<1年
665060621元/平松榆东里 1室1厅 41平南/中楼层/6层NaN吴丁柱254.00<1年
665174834元/平广安门外大街 2室1厅 60平南/未知/6层NaN刘茜茜449.00<1年
665462106元/平新源西里中街 3室1厅 57平南 北/中楼层/5层NaN沈芸芸354.00<1年
665551492元/平花家地小区 2室1厅 75平东南 西北/高楼层/6层NaN张肖丹390.00<1年
666072686元/平牛街西里 3室1厅 101平东北/低楼层/19层NaN王鹏735.00<1年
666122503元/平中建二局南区 2室1厅 52平南 北/高楼层/5层NaN杨瑞118.50<1年
666255275元/平铭科苑 2室1厅 71平东 西/中楼层/6层NaN李石伟393.00<1年
666373086元/平主场 1室--厅 43平北/中楼层/24层NaN耿昌荣315.00<1年
666459962元/平锦绣馨园 3室2厅 140平南 北/低楼层/24层NaN张配配840.00<1年
666550218元/平一瓶四和院 2室2厅 87平东/高楼层/11层NaN张配配439.00<1年
666660186元/平紫郡府 3室1厅 108平南 北/高楼层/9层NaN吴炼650.00<1年
666797544元/平安德里北街25号院 1室1厅 41平西/中楼层/17层NaN张凯鑫409.00<1年
666852632元/平丰益花园西区 2室1厅 77平东南/中楼层/25层NaN李欣琪408.00<1年
666957294元/平武圣西里 2室1厅 54平南/低楼层/6层NaN关川315.00<1年
667027692元/平天洋城 2室1厅 67平西北/低楼层/33层NaN李美奇188.00<1年
667151359元/平天通苑北一区 1室--厅 50平西/中楼层/18层NaN高晓培257.00<1年
667226099元/平福城上上城五期 1室--厅 43平北/中楼层/18层NaN武晓影114.001-2年
667318462元/平福城上上城二季 1室1厅 65平南/中楼层/23层NaN武晓影120.001-2年
667415696元/平东方夏威夷南岸一期 2室1厅 86平南 北/中楼层/16层NaN武晓影136.001-2年
667514901元/平东方夏威夷南岸二期 2室1厅 88平南/高楼层/24层NaN武晓影132.001-2年
667612467元/平福城上上城二季 1室--厅 52平南/低楼层/18层NaN武晓影65.001-2年

142214 rows × 7 columns

数据类型转换、异常值处理以及数据离散化分析

data.head()
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
1811134464元/平麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.05年以上
3811953131元/平合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.04-5年
3811855312元/平富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.04-5年
3811766485元/平富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.04-5年
3811655738元/平合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.04-5年
(~data['cjdanjia'].str.contains('元/平')).sum()  #"~"表示取反,统计不包含“元/平”的行的总数
0
data['cjdanjia'].map(lambda x:round(float(x.replace('元/平',''))/10000,2))  #函数方法
18111    3.45
38119    5.31
38118    5.53
38117    6.65
38116    5.57
38115    5.82
38114    5.80
38113    5.94
38112    6.59
38111    7.33
38110    9.02
38109    8.62
38108    7.93
38107    2.58
50857    6.02
50856    5.69
50855    6.05
50854    6.55
10329    4.03
10328    3.04
10327    5.09
10326    5.19
10325    3.38
10324    4.92
38120    5.09
10323    4.71
10321    4.82
10320    4.16
10319    4.69
10318    4.24
         ... 
6639     1.76
6640     2.42
6641     4.21
6642     2.84
6643     2.14
6644     2.80
6645     1.79
6646     2.01
6647     4.82
6650     6.06
6651     7.48
6654     6.21
6655     5.15
6660     7.27
6661     2.25
6662     5.53
6663     7.31
6664     6.00
6665     5.02
6666     6.02
6667     9.75
6668     5.26
6669     5.73
6670     2.77
6671     5.14
6672     2.61
6673     1.85
6674     1.57
6675     1.49
6676     1.25
Name: cjdanjia, dtype: float64
new=np.round(data['cjdanjia'].str.replace('元/平','').astype(np.float32)/10000,2)   #将所有行的字符“元/平”删除,并将数值转化为float类型。常规python方法,推荐使用
data['cjdanjia']=new #【将列'cjdanjia'重新赋值】
data
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.005年以上
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.004-5年
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.004-5年
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.004-5年
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.004-5年
381155.82富力城D区 2室1厅 111平南/高楼层/22层CBD李铁岗650.004-5年
381145.80富力城A区 3室2厅 121平南/高楼层/26层CBD李铁岗706.004-5年
381135.94富力城D区 2室1厅 108平南/低楼层/21层CBD李铁岗645.004-5年
381126.59石韵浩庭 1室1厅 45平东北/高楼层/15层CBD李铁岗300.004-5年
381117.33富力城A区 3室2厅 120平南/高楼层/26层CBD李铁岗882.004-5年
381109.02富力城D区 2室1厅 111平南/低楼层/22层CBD李铁岗1008.004-5年
381098.62富力城D区 2室2厅 112平南/高楼层/16层CBD李铁岗970.004-5年
381087.93合生国际花园 2室2厅 104平西南/中楼层/18层CBD李铁岗828.004-5年
381072.58广渠门外大街路北区 2室1厅 70平西 北/中楼层/18层CBD李铁岗182.084-5年
508576.02世界城 1室--厅 56平南/高楼层/29层CBD李东340.00<1年
508565.69世界城 1室--厅 58平南/高楼层/29层CBD李东330.00<1年
508556.05世界城 1室1厅 76平东 北/高楼层/29层CBD李东460.00<1年
508546.55新城国际 2室1厅 137平东 北/低楼层/31层CBD李东900.00<1年
103294.03苹果社区南区 3室2厅 170平南 北/中楼层/27层CBD孙宁688.004-5年
103283.04苹果社区南区 1室--厅 59平南/低楼层/21层CBD孙宁180.004-5年
103275.09首城国际 2室1厅 88平南/低楼层/28层CBD孙宁452.004-5年
103265.19苹果社区南区 1室1厅 60平北/中楼层/26层CBD孙宁316.004-5年
103253.38苹果社区南区 2室1厅 110平西/中楼层/33层CBD孙宁373.004-5年
103244.92石韵浩庭 2室2厅 108平南 北/中楼层/15层CBD孙宁533.004-5年
381205.09合生国际花园 3室2厅 137平南 北/高楼层/24层CBD李铁岗700.004-5年
103234.71苹果社区南区 1室1厅 55平北/低楼层/22层CBD孙宁260.004-5年
103214.82石韵浩庭 2室2厅 105平南 北/低楼层/15层CBD孙宁508.004-5年
103204.16苹果社区北区 2室1厅 95平西北/中楼层/33层CBD孙宁396.004-5年
103194.69双花园南里一区 2室1厅 120平东/低楼层/22层CBD孙宁567.004-5年
103184.24双花园南里一区 3室1厅 138平西北/低楼层/22层CBD孙宁588.004-5年
........................
66391.76米拉小镇 1室--厅 46平南/高楼层/9层NaN张翔82.50<1年
66402.42华美橡树岭 1室--厅 45平西/低楼层/6层NaN孙泽明110.00<1年
66414.21八角北路 2室1厅 52平西南/高楼层/6层NaN毕佳华220.00<1年
66422.84蔚园 2室1厅 67平南 北/高楼层/6层NaN毕佳华190.00<1年
66432.14福城上上城五期 2室1厅 83平南 北/中楼层/18层NaN李大松179.50<1年
66442.80天洋城 2室1厅 91平东南/中楼层/34层NaN王彩云256.00<1年
66451.79福城上上城三季 3室1厅 108平南 北/低楼层/23层NaN王彩云194.00<1年
66462.01东贸国际 1室--厅 43平西/低楼层/27层NaN王彩云88.00<1年
66474.82红居斜街 2室1厅 65平南 北/地下室/6层NaN张莉318.00<1年
66506.06松榆东里 1室1厅 41平南/中楼层/6层NaN吴丁柱254.00<1年
66517.48广安门外大街 2室1厅 60平南/未知/6层NaN刘茜茜449.00<1年
66546.21新源西里中街 3室1厅 57平南 北/中楼层/5层NaN沈芸芸354.00<1年
66555.15花家地小区 2室1厅 75平东南 西北/高楼层/6层NaN张肖丹390.00<1年
66607.27牛街西里 3室1厅 101平东北/低楼层/19层NaN王鹏735.00<1年
66612.25中建二局南区 2室1厅 52平南 北/高楼层/5层NaN杨瑞118.50<1年
66625.53铭科苑 2室1厅 71平东 西/中楼层/6层NaN李石伟393.00<1年
66637.31主场 1室--厅 43平北/中楼层/24层NaN耿昌荣315.00<1年
66646.00锦绣馨园 3室2厅 140平南 北/低楼层/24层NaN张配配840.00<1年
66655.02一瓶四和院 2室2厅 87平东/高楼层/11层NaN张配配439.00<1年
66666.02紫郡府 3室1厅 108平南 北/高楼层/9层NaN吴炼650.00<1年
66679.75安德里北街25号院 1室1厅 41平西/中楼层/17层NaN张凯鑫409.00<1年
66685.26丰益花园西区 2室1厅 77平东南/中楼层/25层NaN李欣琪408.00<1年
66695.73武圣西里 2室1厅 54平南/低楼层/6层NaN关川315.00<1年
66702.77天洋城 2室1厅 67平西北/低楼层/33层NaN李美奇188.00<1年
66715.14天通苑北一区 1室--厅 50平西/中楼层/18层NaN高晓培257.00<1年
66722.61福城上上城五期 1室--厅 43平北/中楼层/18层NaN武晓影114.001-2年
66731.85福城上上城二季 1室1厅 65平南/中楼层/23层NaN武晓影120.001-2年
66741.57东方夏威夷南岸一期 2室1厅 86平南 北/中楼层/16层NaN武晓影136.001-2年
66751.49东方夏威夷南岸二期 2室1厅 88平南/高楼层/24层NaN武晓影132.001-2年
66761.25福城上上城二季 1室--厅 52平南/低楼层/18层NaN武晓影65.001-2年

142214 rows × 7 columns

#data.assign(cjdanjia=np.round(data['cjdanjia'].str.replace('元/平','').astype(np.float32)/10000,2))
data.rename(columns={'cjdanjia':'cjdanjia万/元'})#修改列名,但是没有replace=True,所以不是在原数据上直接修改
#columns={'原':'新'}
cjdanjia万/元cjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.005年以上
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.004-5年
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.004-5年
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.004-5年
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.004-5年
381155.82富力城D区 2室1厅 111平南/高楼层/22层CBD李铁岗650.004-5年
381145.80富力城A区 3室2厅 121平南/高楼层/26层CBD李铁岗706.004-5年
381135.94富力城D区 2室1厅 108平南/低楼层/21层CBD李铁岗645.004-5年
381126.59石韵浩庭 1室1厅 45平东北/高楼层/15层CBD李铁岗300.004-5年
381117.33富力城A区 3室2厅 120平南/高楼层/26层CBD李铁岗882.004-5年
381109.02富力城D区 2室1厅 111平南/低楼层/22层CBD李铁岗1008.004-5年
381098.62富力城D区 2室2厅 112平南/高楼层/16层CBD李铁岗970.004-5年
381087.93合生国际花园 2室2厅 104平西南/中楼层/18层CBD李铁岗828.004-5年
381072.58广渠门外大街路北区 2室1厅 70平西 北/中楼层/18层CBD李铁岗182.084-5年
508576.02世界城 1室--厅 56平南/高楼层/29层CBD李东340.00<1年
508565.69世界城 1室--厅 58平南/高楼层/29层CBD李东330.00<1年
508556.05世界城 1室1厅 76平东 北/高楼层/29层CBD李东460.00<1年
508546.55新城国际 2室1厅 137平东 北/低楼层/31层CBD李东900.00<1年
103294.03苹果社区南区 3室2厅 170平南 北/中楼层/27层CBD孙宁688.004-5年
103283.04苹果社区南区 1室--厅 59平南/低楼层/21层CBD孙宁180.004-5年
103275.09首城国际 2室1厅 88平南/低楼层/28层CBD孙宁452.004-5年
103265.19苹果社区南区 1室1厅 60平北/中楼层/26层CBD孙宁316.004-5年
103253.38苹果社区南区 2室1厅 110平西/中楼层/33层CBD孙宁373.004-5年
103244.92石韵浩庭 2室2厅 108平南 北/中楼层/15层CBD孙宁533.004-5年
381205.09合生国际花园 3室2厅 137平南 北/高楼层/24层CBD李铁岗700.004-5年
103234.71苹果社区南区 1室1厅 55平北/低楼层/22层CBD孙宁260.004-5年
103214.82石韵浩庭 2室2厅 105平南 北/低楼层/15层CBD孙宁508.004-5年
103204.16苹果社区北区 2室1厅 95平西北/中楼层/33层CBD孙宁396.004-5年
103194.69双花园南里一区 2室1厅 120平东/低楼层/22层CBD孙宁567.004-5年
103184.24双花园南里一区 3室1厅 138平西北/低楼层/22层CBD孙宁588.004-5年
........................
66391.76米拉小镇 1室--厅 46平南/高楼层/9层NaN张翔82.50<1年
66402.42华美橡树岭 1室--厅 45平西/低楼层/6层NaN孙泽明110.00<1年
66414.21八角北路 2室1厅 52平西南/高楼层/6层NaN毕佳华220.00<1年
66422.84蔚园 2室1厅 67平南 北/高楼层/6层NaN毕佳华190.00<1年
66432.14福城上上城五期 2室1厅 83平南 北/中楼层/18层NaN李大松179.50<1年
66442.80天洋城 2室1厅 91平东南/中楼层/34层NaN王彩云256.00<1年
66451.79福城上上城三季 3室1厅 108平南 北/低楼层/23层NaN王彩云194.00<1年
66462.01东贸国际 1室--厅 43平西/低楼层/27层NaN王彩云88.00<1年
66474.82红居斜街 2室1厅 65平南 北/地下室/6层NaN张莉318.00<1年
66506.06松榆东里 1室1厅 41平南/中楼层/6层NaN吴丁柱254.00<1年
66517.48广安门外大街 2室1厅 60平南/未知/6层NaN刘茜茜449.00<1年
66546.21新源西里中街 3室1厅 57平南 北/中楼层/5层NaN沈芸芸354.00<1年
66555.15花家地小区 2室1厅 75平东南 西北/高楼层/6层NaN张肖丹390.00<1年
66607.27牛街西里 3室1厅 101平东北/低楼层/19层NaN王鹏735.00<1年
66612.25中建二局南区 2室1厅 52平南 北/高楼层/5层NaN杨瑞118.50<1年
66625.53铭科苑 2室1厅 71平东 西/中楼层/6层NaN李石伟393.00<1年
66637.31主场 1室--厅 43平北/中楼层/24层NaN耿昌荣315.00<1年
66646.00锦绣馨园 3室2厅 140平南 北/低楼层/24层NaN张配配840.00<1年
66655.02一瓶四和院 2室2厅 87平东/高楼层/11层NaN张配配439.00<1年
66666.02紫郡府 3室1厅 108平南 北/高楼层/9层NaN吴炼650.00<1年
66679.75安德里北街25号院 1室1厅 41平西/中楼层/17层NaN张凯鑫409.00<1年
66685.26丰益花园西区 2室1厅 77平东南/中楼层/25层NaN李欣琪408.00<1年
66695.73武圣西里 2室1厅 54平南/低楼层/6层NaN关川315.00<1年
66702.77天洋城 2室1厅 67平西北/低楼层/33层NaN李美奇188.00<1年
66715.14天通苑北一区 1室--厅 50平西/中楼层/18层NaN高晓培257.00<1年
66722.61福城上上城五期 1室--厅 43平北/中楼层/18层NaN武晓影114.001-2年
66731.85福城上上城二季 1室1厅 65平南/中楼层/23层NaN武晓影120.001-2年
66741.57东方夏威夷南岸一期 2室1厅 86平南 北/中楼层/16层NaN武晓影136.001-2年
66751.49东方夏威夷南岸二期 2室1厅 88平南/高楼层/24层NaN武晓影132.001-2年
66761.25福城上上城二季 1室--厅 52平南/低楼层/18层NaN武晓影65.001-2年

142214 rows × 7 columns

data.cjdanjia.max()
14.99
data['cjdanjia'].min()
0.0
data=data[data['cjdanjia']>0]  #处理不合理的数据,将等于零的数据排除
data['cjdanjia'].min()
0.0099999998
data=data[data['cjdanjia']>0.5]
data.cjdanjia.min()
0.50999999
len(data)
141154
bins=[0,1,2,3,4,5,7,10,15]  #离散化处理
pd.cut(data.cjdanjia,bins).value_counts().plot.bar(rot=30)
<matplotlib.axes._subplots.AxesSubplot at 0x28a252cc240>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p5plVlno-1577087811200)(output_38_1.png)]

字符串处理

data.head()
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxian
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.05年以上
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.04-5年
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.04-5年
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.04-5年
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.04-5年
(data.cjlouceng.str.split('/').map(len)!=3).sum()  #判断是否都包含有三层
0
data['chaoxiang']=data.cjlouceng.map(lambda x:x.split('/')[0])  #将cjlouceng中用split截取的第一层字符重新命名为新的一列
data=data.assign(chaoxiang=data.cjlouceng.map(lambda x:x.split('/')[0]))   #用data.assign方法更加安全。
data['chaoxiang']=data['cjlouceng'].str.split('/').str[0]  #第二种方法
data['louceng']=data['cjlouceng'].str.split('/').str[1]
data.head()
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxianchaoxianglouceng
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.05年以上南 北低楼层
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.04-5年中楼层
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.04-5年东 南中楼层
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.04-5年南 北低楼层
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.04-5年低楼层
data.louceng.unique()  #louceng的种类
array(['低楼层', '中楼层', '高楼层', '地下室', '未知', ''], dtype=object)
data=data[(data.louceng!='')&(data.louceng!='未知')] #去掉为空和未知的数据
data
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxianchaoxianglouceng
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.005年以上南 北低楼层
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.004-5年中楼层
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.004-5年东 南中楼层
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.004-5年南 北低楼层
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.004-5年低楼层
381155.82富力城D区 2室1厅 111平南/高楼层/22层CBD李铁岗650.004-5年高楼层
381145.80富力城A区 3室2厅 121平南/高楼层/26层CBD李铁岗706.004-5年高楼层
381135.94富力城D区 2室1厅 108平南/低楼层/21层CBD李铁岗645.004-5年低楼层
381126.59石韵浩庭 1室1厅 45平东北/高楼层/15层CBD李铁岗300.004-5年东北高楼层
381117.33富力城A区 3室2厅 120平南/高楼层/26层CBD李铁岗882.004-5年高楼层
381109.02富力城D区 2室1厅 111平南/低楼层/22层CBD李铁岗1008.004-5年低楼层
381098.62富力城D区 2室2厅 112平南/高楼层/16层CBD李铁岗970.004-5年高楼层
381087.93合生国际花园 2室2厅 104平西南/中楼层/18层CBD李铁岗828.004-5年西南中楼层
381072.58广渠门外大街路北区 2室1厅 70平西 北/中楼层/18层CBD李铁岗182.084-5年西 北中楼层
508576.02世界城 1室--厅 56平南/高楼层/29层CBD李东340.00<1年高楼层
508565.69世界城 1室--厅 58平南/高楼层/29层CBD李东330.00<1年高楼层
508556.05世界城 1室1厅 76平东 北/高楼层/29层CBD李东460.00<1年东 北高楼层
508546.55新城国际 2室1厅 137平东 北/低楼层/31层CBD李东900.00<1年东 北低楼层
103294.03苹果社区南区 3室2厅 170平南 北/中楼层/27层CBD孙宁688.004-5年南 北中楼层
103283.04苹果社区南区 1室--厅 59平南/低楼层/21层CBD孙宁180.004-5年低楼层
103275.09首城国际 2室1厅 88平南/低楼层/28层CBD孙宁452.004-5年低楼层
103265.19苹果社区南区 1室1厅 60平北/中楼层/26层CBD孙宁316.004-5年中楼层
103253.38苹果社区南区 2室1厅 110平西/中楼层/33层CBD孙宁373.004-5年西中楼层
103244.92石韵浩庭 2室2厅 108平南 北/中楼层/15层CBD孙宁533.004-5年南 北中楼层
381205.09合生国际花园 3室2厅 137平南 北/高楼层/24层CBD李铁岗700.004-5年南 北高楼层
103234.71苹果社区南区 1室1厅 55平北/低楼层/22层CBD孙宁260.004-5年低楼层
103214.82石韵浩庭 2室2厅 105平南 北/低楼层/15层CBD孙宁508.004-5年南 北低楼层
103204.16苹果社区北区 2室1厅 95平西北/中楼层/33层CBD孙宁396.004-5年西北中楼层
103194.69双花园南里一区 2室1厅 120平东/低楼层/22层CBD孙宁567.004-5年低楼层
103184.24双花园南里一区 3室1厅 138平西北/低楼层/22层CBD孙宁588.004-5年西北低楼层
..............................
66382.77SOCO公社 1室--厅 44平北/高楼层/15层NaN康硕122.00<1年高楼层
66391.76米拉小镇 1室--厅 46平南/高楼层/9层NaN张翔82.50<1年高楼层
66402.42华美橡树岭 1室--厅 45平西/低楼层/6层NaN孙泽明110.00<1年西低楼层
66414.21八角北路 2室1厅 52平西南/高楼层/6层NaN毕佳华220.00<1年西南高楼层
66422.84蔚园 2室1厅 67平南 北/高楼层/6层NaN毕佳华190.00<1年南 北高楼层
66432.14福城上上城五期 2室1厅 83平南 北/中楼层/18层NaN李大松179.50<1年南 北中楼层
66442.80天洋城 2室1厅 91平东南/中楼层/34层NaN王彩云256.00<1年东南中楼层
66451.79福城上上城三季 3室1厅 108平南 北/低楼层/23层NaN王彩云194.00<1年南 北低楼层
66462.01东贸国际 1室--厅 43平西/低楼层/27层NaN王彩云88.00<1年西低楼层
66474.82红居斜街 2室1厅 65平南 北/地下室/6层NaN张莉318.00<1年南 北地下室
66506.06松榆东里 1室1厅 41平南/中楼层/6层NaN吴丁柱254.00<1年中楼层
66546.21新源西里中街 3室1厅 57平南 北/中楼层/5层NaN沈芸芸354.00<1年南 北中楼层
66555.15花家地小区 2室1厅 75平东南 西北/高楼层/6层NaN张肖丹390.00<1年东南 西北高楼层
66607.27牛街西里 3室1厅 101平东北/低楼层/19层NaN王鹏735.00<1年东北低楼层
66612.25中建二局南区 2室1厅 52平南 北/高楼层/5层NaN杨瑞118.50<1年南 北高楼层
66625.53铭科苑 2室1厅 71平东 西/中楼层/6层NaN李石伟393.00<1年东 西中楼层
66637.31主场 1室--厅 43平北/中楼层/24层NaN耿昌荣315.00<1年中楼层
66646.00锦绣馨园 3室2厅 140平南 北/低楼层/24层NaN张配配840.00<1年南 北低楼层
66655.02一瓶四和院 2室2厅 87平东/高楼层/11层NaN张配配439.00<1年高楼层
66666.02紫郡府 3室1厅 108平南 北/高楼层/9层NaN吴炼650.00<1年南 北高楼层
66679.75安德里北街25号院 1室1厅 41平西/中楼层/17层NaN张凯鑫409.00<1年西中楼层
66685.26丰益花园西区 2室1厅 77平东南/中楼层/25层NaN李欣琪408.00<1年东南中楼层
66695.73武圣西里 2室1厅 54平南/低楼层/6层NaN关川315.00<1年低楼层
66702.77天洋城 2室1厅 67平西北/低楼层/33层NaN李美奇188.00<1年西北低楼层
66715.14天通苑北一区 1室--厅 50平西/中楼层/18层NaN高晓培257.00<1年西中楼层
66722.61福城上上城五期 1室--厅 43平北/中楼层/18层NaN武晓影114.001-2年中楼层
66731.85福城上上城二季 1室1厅 65平南/中楼层/23层NaN武晓影120.001-2年中楼层
66741.57东方夏威夷南岸一期 2室1厅 86平南 北/中楼层/16层NaN武晓影136.001-2年南 北中楼层
66751.49东方夏威夷南岸二期 2室1厅 88平南/高楼层/24层NaN武晓影132.001-2年高楼层
66761.25福城上上城二季 1室--厅 52平南/低楼层/18层NaN武晓影65.001-2年低楼层

141140 rows × 9 columns

pd.get_dummies(data['louceng'])  #利用pd.get_dummies将louceng 这一列进行数值化
#将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,
#one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。
中楼层低楼层地下室高楼层
181110.01.00.00.0
381191.00.00.00.0
381181.00.00.00.0
381170.01.00.00.0
381160.01.00.00.0
381150.00.00.01.0
381140.00.00.01.0
381130.01.00.00.0
381120.00.00.01.0
381110.00.00.01.0
381100.01.00.00.0
381090.00.00.01.0
381081.00.00.00.0
381071.00.00.00.0
508570.00.00.01.0
508560.00.00.01.0
508550.00.00.01.0
508540.01.00.00.0
103291.00.00.00.0
103280.01.00.00.0
103270.01.00.00.0
103261.00.00.00.0
103251.00.00.00.0
103241.00.00.00.0
381200.00.00.01.0
103230.01.00.00.0
103210.01.00.00.0
103201.00.00.00.0
103190.01.00.00.0
103180.01.00.00.0
...............
66380.00.00.01.0
66390.00.00.01.0
66400.01.00.00.0
66410.00.00.01.0
66420.00.00.01.0
66431.00.00.00.0
66441.00.00.00.0
66450.01.00.00.0
66460.01.00.00.0
66470.00.01.00.0
66501.00.00.00.0
66541.00.00.00.0
66550.00.00.01.0
66600.01.00.00.0
66610.00.00.01.0
66621.00.00.00.0
66631.00.00.00.0
66640.01.00.00.0
66650.00.00.01.0
66660.00.00.01.0
66671.00.00.00.0
66681.00.00.00.0
66690.01.00.00.0
66700.01.00.00.0
66711.00.00.00.0
66721.00.00.00.0
66731.00.00.00.0
66741.00.00.00.0
66750.00.00.01.0
66760.01.00.00.0

141140 rows × 4 columns

data.join(pd.get_dummies(data['louceng']))  #将数据横向合并
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxianchaoxianglouceng中楼层低楼层地下室高楼层
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.01.00.00.0
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.01.00.00.0
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.00.00.01.0
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.00.00.01.0
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.00.00.01.0
03.96枣营北里 3室1厅 82平南 北/低楼层/6层三元桥冯先庆326.05年以上南 北低楼层0.00.00.01.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.01.00.00.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.01.00.00.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.00.00.01.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.00.00.01.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.00.00.01.0
05.20裘马都 4室2厅 586平南 西 北/低楼层/23层三元桥南永见3050.05年以上南 西 北低楼层0.00.00.01.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.01.00.00.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.01.00.00.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.00.00.01.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.00.00.01.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.00.00.01.0
07.70保利金泉 1室2厅 72平北/高楼层/30层亚运村王祥558.04-5年高楼层0.00.00.01.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.01.00.00.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.01.00.00.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.00.00.01.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.00.00.01.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.00.00.01.0
04.97莱圳家园 1室1厅 70平西/高楼层/16层清河马博349.01-2年西高楼层0.00.00.01.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.01.00.00.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.01.00.00.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.00.00.01.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.00.00.01.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.00.00.01.0
05.18小南庄社区 2室1厅 62平南 北/高楼层/6层苏州桥邢洲321.05年以上南 北高楼层0.00.00.01.0
..........................................
570891.32石园北区 1室1厅 71平南 北/中楼层/6层顺义城秦记锋95.05年以上南 北中楼层1.00.00.00.0
570901.25仓上小区 2室1厅 64平南 北/中楼层/6层顺义城秦记锋81.05年以上南 北中楼层1.00.00.00.0
570911.50红杉一品 3室2厅 133平南 北/低楼层/16层顺义城秦记锋200.05年以上南 北低楼层0.01.00.00.0
570921.19石园南区 2室1厅 85平南 北/中楼层/6层顺义城秦记锋102.05年以上南 北中楼层1.00.00.00.0
570933.15义宾北区 2室1厅 89平东 西/高楼层/6层顺义城秦记锋282.05年以上东 西高楼层0.00.00.01.0
570943.35石园西区 1室1厅 43平南 北/低楼层/6层顺义城秦记锋144.55年以上南 北低楼层0.01.00.00.0
570952.66西辛北区 2室1厅 73平南 北/中楼层/6层顺义城秦记锋195.05年以上南 北中楼层1.00.00.00.0
570961.91樱花园一区 2室1厅 77平南 北/低楼层/7层顺义城秦记锋148.05年以上南 北低楼层0.01.00.00.0
570972.07西辛南区 2室1厅 83平南 北/高楼层/6层顺义城秦记锋173.05年以上南 北高楼层0.00.00.01.0
570981.89港馨家园东区 2室1厅 74平南 北/低楼层/6层顺义城秦记锋142.05年以上南 北低楼层0.01.00.00.0
570991.91石园北区 3室2厅 130平南 西/中楼层/6层顺义城秦记锋249.05年以上南 西中楼层1.00.00.00.0
571002.40港馨家园西区 3室2厅 123平南 北/低楼层/5层顺义城秦记锋297.05年以上南 北低楼层0.01.00.00.0
571012.09石园东区 2室1厅 75平南 北/低楼层/6层顺义城秦记锋158.05年以上南 北低楼层0.01.00.00.0
571022.21双兴南区 1室1厅 54平南 北/高楼层/6层顺义城秦记锋121.05年以上南 北高楼层0.00.00.01.0
571031.36鹭峯国际 2室1厅 87平北/低楼层/14层顺义城秦记锋119.05年以上低楼层0.01.00.00.0
571041.97仓上小区 1室1厅 59平南 北/高楼层/6层顺义城秦记锋117.05年以上南 北高楼层0.00.00.01.0
571052.09石园北区 1室1厅 69平南 北/中楼层/6层顺义城秦记锋145.05年以上南 北中楼层1.00.00.00.0
571062.01石园北区 1室1厅 69平南 北/高楼层/6层顺义城秦记锋140.05年以上南 北高楼层0.00.00.01.0
571071.90滨河小区 1室1厅 60平南 北/高楼层/6层顺义城秦记锋115.05年以上南 北高楼层0.00.00.01.0
571082.03石园西区 2室1厅 61平西 南 北/高楼层/6层顺义城秦记锋124.05年以上西 南 北高楼层0.00.00.01.0
571092.01石园北区 3室1厅 91平南 北/高楼层/16层顺义城秦记锋183.05年以上南 北高楼层0.00.00.01.0
571102.05石园北区 2室1厅 77平南 北/高楼层/16层顺义城秦记锋159.05年以上南 北高楼层0.00.00.01.0
571111.65石园南区 3室1厅 100平南 北/中楼层/6层顺义城秦记锋165.05年以上南 北中楼层1.00.00.00.0
571122.23胜利小区 1室1厅 55平南 北/低楼层/6层顺义城秦记锋124.05年以上南 北低楼层0.01.00.00.0
571136.50慧忠北里 1室1厅 65平西/低楼层/24层亚运村陈金良428.01-2年西低楼层0.01.00.00.0
571145.53慧忠北里第一社区 3室2厅 117平东南/高楼层/6层亚运村陈金良648.01-2年东南高楼层0.00.00.01.0
571155.16新荣家园 3室2厅 140平南 西/中楼层/25层亚运村陈金良725.01-2年南 西中楼层1.00.00.00.0
571165.52保利金泉 3室2厅 161平东 西 南/中楼层/30层亚运村陈金良892.01-2年东 西 南中楼层1.00.00.00.0
571173.83天创世缘 2室1厅 103平西南/中楼层/19层亚运村陈金良395.01-2年西南中楼层1.00.00.00.0
571184.16新荣家园 3室2厅 147平东 北/中楼层/25层亚运村陈金良615.01-2年东 北中楼层1.00.00.00.0

457808 rows × 13 columns

data.chaoxiang.unique()
array(['南 北', '南', '东 南', '东北', '西南', '西 北', '东 北', '北', '西', '西北', '东',
       '东南', '东 南 西 北', '南 西', '东 西 南', '东 西', '西 南', '南 西 北', '东 南 北',
       '东南 西北', '西 南 北', '西南 东南', '东 北 南', '南 北 东', '东 西 北', '西 北 南',
       '南 北 西', '东南 北', '西南 北', '东 南 西', '北 南', '西南 西北', '南 西北', '西南 东北',
       '暂无数据', '南 东北', '东南 东北', '东南 东南', '北 东南', '南 东 北', '西 西南 南',
       '东 东南 南', '东 东南', '西 东北', '西 西北 北', '南 东南', '东南 南', '北 西南', '西 东南',
       '东 西北', '西南 西 南', '东南 东', '西南 西', '西南 南', '南 北 西南', '南 北 东北',
       '南 西南', '东南 西南', '东 北 东南', '北 东 东南', '南 北 西北', '东南 南 北', '西 北 西南',
       '南 西南 西', '北 西 西南', '西 南 东南', '东 南 西北 西', '东北 西北', '西 西南', '西 西北',
       '西 北 东南', '东 北 西', '北 东 南', '西南 东南 东南', '东 南 西北', '西北 西南 东南',
       '西北 东南', '西 南 东南 东', '东 东南 东北', '东 西南', '北 西', '南 西南 北', '西 北 东 南',
       '西北 东北 东南', '西 东 南', '东南 西', '东南 东 南', '东 南 北 东南', '东南 西南 东',
       '东南 西 北', '东南 南 东', '西北 东北', '东南 西南 东北', '东北 西南', '西 南 东', '东 东北',
       '西 西南 东南', '北 南 东', '东南 东南 西南', '东 东南 西', '西 南 北 东', '东 东南 北',
       '东 西 南 北', '北 东', '东 西 东南', '东 北 西南', '东 南 西南', '南 东', '东南 北 西',
       '西 东', '东北 南', '西南 南 西', '西南 西北 东南', '南 西 西北', '东 南 东南', '西南 东',
       '东 西 东北', '北 东北', '南 东南 西南', '南 北 东南', '东南 南 西南 西北 北'], dtype=object)

分组运算与布尔过滤

data.head()
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxianchaoxianglouceng
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.05年以上南 北低楼层
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.04-5年中楼层
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.04-5年东 南中楼层
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.04-5年南 北低楼层
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.04-5年低楼层
data_group=data.groupby(['bankuai','xingming'])['cjzongjia'].sum()
data_group[data_group>10000]  #取出分完组后大于10000的数据
bankuai  xingming
CBD      李铁岗         14532.080
         王东学         10232.700
         王辰          12742.000
七里庄      刘淼          11794.600
         姜彩波         10180.300
         赵静          11152.500
         邝征军         10071.000
万寿路      杨会云         15971.700
         计禹龙         14761.300
万柳       何延芬         17022.800
         刘琳琳         17848.800
         史东东         13359.000
         宋凯歌         10328.700
         朱俊琴         11297.800
         江滨          14026.790
         潘建伟         10653.000
         王利军         15436.500
         葛开灯         14725.000
         谢凯          10833.000
         赵翠玲         13712.700
         赵鑫          12929.000
三元桥      冯先庆         10079.500
         孟凡龙         11750.000
         崔伟伟         14428.000
         魏英芬         26312.000
三里屯      史大伟         15957.500
         罗银          10178.500
上地       崔玉风         10285.000
         康晓亮         14525.150
         张瑞民         11117.500
                       ...    
魏公村      周立平         10651.600
         张佳          11412.500
         张慧          11100.000
         王震          11465.500
         范凯凯         22488.600
鲁谷       乔璐璐         12236.089
         孟斌          12472.000
         宣自来         15368.300
         崔红涛         11394.000
         张吉          10153.000
         张学娟         10804.300
         张楠          11806.680
         王春冬         13015.080
         王阵营         10305.000
         王雪          16658.090
         贺玉垒         11799.310
         鲁功敏         14761.200
黄村中      史翔涛         11002.300
         张建华         10650.000
黄村北      吴晓斌         10532.100
         周岩          23515.800
         姜焕卿         11424.300
         张东振         11369.470
         徐雪丽         12776.200
         桑长青         10624.500
         梁杰          10030.950
         王洋          11666.000
         管祥业         10025.100
         陆新田         16453.980
         陈盼          10758.200
Name: cjzongjia, dtype: float64
data.head()
cjdanjiacjxiaoqucjloucengbankuaixingmingcjzongjiacongyenianxianchaoxianglouceng
181113.45麦子店街 2室1厅 52平南 北/低楼层/6层CBD王海涛182.05年以上南 北低楼层
381195.31合生国际花园 2室2厅 104平南/中楼层/18层CBD李铁岗555.04-5年中楼层
381185.53富力城B区 3室2厅 148平东 南/中楼层/12层CBD李铁岗820.04-5年东 南中楼层
381176.65富力城D区 3室2厅 200平南 北/低楼层/14层CBD李铁岗1335.04-5年南 北低楼层
381165.57合生国际花园 2室2厅 103平南/低楼层/18层CBD李铁岗578.04-5年低楼层
data_1w=data.pivot_table('cjzongjia',index='xingming',columns='congyenianxian',aggfunc=sum)  #聚合方式是sum,求和
data_1w
congyenianxian1-2年2-3年3-4年4-5年5年以上<1年
xingming
丁一NaNNaN1760.000NaNNaNNaN
丁丽NaNNaNNaNNaN3115.000NaN
丁乾浩NaNNaNNaNNaNNaN411.0
丁云朋1950.0NaNNaNNaNNaNNaN
丁光明4284.0NaNNaNNaNNaNNaN
丁凡顺NaNNaNNaNNaN6754.525NaN
丁向锋2844.0NaNNaNNaNNaNNaN
丁壮NaN4170.0NaNNaNNaNNaN
丁学峰NaNNaN3249.600NaNNaNNaN
丁少林NaNNaNNaNNaN8342.500NaN
丁康康NaN2855.0NaNNaNNaNNaN
丁建宝NaNNaNNaNNaNNaN390.0
丁旭NaNNaNNaN7636.10NaNNaN
丁林冲NaNNaNNaN7756.60NaNNaN
丁海军NaNNaNNaNNaN17927.800NaN
丁涛涛1508.0NaNNaNNaNNaNNaN
丁炜1552.8NaNNaNNaNNaNNaN
丁秋枫NaNNaNNaNNaNNaN1141.0
丁美玉NaNNaNNaNNaNNaN1211.5
丁翠NaNNaNNaNNaN1578.000NaN
丁若NaNNaNNaNNaNNaN425.5
丁董亮2089.5NaNNaNNaNNaNNaN
丁虎子NaNNaNNaNNaNNaN3947.0
丁邯风NaNNaN7986.100NaNNaNNaN
丁锦东NaNNaNNaNNaNNaN1821.0
丁闯5418.0NaNNaNNaNNaNNaN
丁青峰NaNNaNNaNNaN9286.320NaN
丁飞NaN6580.0NaNNaNNaNNaN
万国俊NaNNaNNaNNaN3481.000NaN
万家乐NaNNaNNaNNaN3483.500NaN
.....................
齐梁NaNNaN4592.500NaNNaNNaN
齐浩NaNNaN6244.000NaNNaNNaN
齐海艳NaNNaNNaNNaN5817.290NaN
齐灿坤5062.0NaNNaNNaNNaNNaN
齐玉东1815.5NaNNaNNaNNaNNaN
齐现宇NaNNaNNaN2438.05NaNNaN
齐磊NaNNaNNaNNaNNaN905.0
齐红卫NaNNaNNaNNaN7820.900NaN
齐铎470.0NaNNaNNaNNaNNaN
齐高峰NaNNaNNaNNaN3201.300NaN
龙凯NaNNaN5887.400NaNNaNNaN
龙则灵NaNNaNNaNNaN4134.800NaN
龙天吉NaNNaNNaNNaN12887.300NaN
龙学强NaNNaNNaNNaN8944.380NaN
龙枭NaN5171.3NaNNaNNaNNaN
龙治浩NaNNaN3011.000NaNNaNNaN
龙立刚NaNNaNNaNNaN5971.600NaN
龙翔宇NaNNaNNaNNaNNaN1068.0
龙腾NaNNaN1943.500NaNNaNNaN
龙见水NaNNaNNaNNaN6883.000NaN
龙超NaNNaNNaN5027.00NaNNaN
龙运江NaNNaNNaNNaN11291.050NaN
龙香平NaNNaNNaNNaNNaN333.0
龚喜全NaNNaNNaN9482.50NaNNaN
龚宸NaNNaNNaNNaNNaN2200.0
龚小芳NaNNaNNaNNaN3630.000NaN
龚成NaNNaN5656.966NaNNaNNaN
龚振武NaNNaN5202.500NaNNaNNaN
龚继航NaNNaN1680.000NaNNaNNaN
龚雪NaNNaNNaNNaN7071.500NaN

8270 rows × 6 columns

(data_1w>10000).sum().plot.pie(figsize=(6,6))  #统计各个congyenianxian的总人数
<matplotlib.axes._subplots.AxesSubplot at 0x28a2539b860>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dMZ01Opz-1577在这里插入图片描述087811208)(output_60_1.png)]

(data_1w>10000).sum().plot.bar(rot=0,color='skyblue',title="房产数量图")
<matplotlib.axes._subplots.AxesSubplot at 0x28a2b7b8470>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cUpfTm0W-1577087811209)(output_61_1.png)]

在这里插入图片描述```python

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值