科学计算案例大全-优快云博客

NBA球员数据分析

基本数据介绍

每个球迷心中都有一个属于自己的迈克尔·乔丹、科比·布莱恩特、勒布朗·詹姆斯。本案例将用jupyter notebook完成NBA菜鸟数据分析初探。

案例中使用的数据是2017年NBA球员基本数据，数据字段见下表：

科学计算案例大全_缺失值

北京租房数据统计分析

近年来随着经济的快速发展，一线城市的资源和就业机会吸引了很多外来人口，使其逐渐成为人口密集的城市之一。据统计，2017年北京市常住外来人口已经达到了2170.7万人，其中绝大多数人是以租房的形式解决居住问题。

本文将租房网站上北京地区的租房数据作为参考，运用前面所学到的数据分析知识，带领大家一起来分析真实数据，并以图表的形式得到以下统计指标：

(1)统计每个区域的房源总数量，并使用热力图分析房源位置分布情况。

(2)使用条形图分析哪种户型的数量最多、更受欢迎。

(3)统计每个区域的平均租金，并结合柱状图和折线图分析各区域的房源数量和租金情况。

(4)统计面积区间的市场占有率，并使用饼图绘制各区间所占的比例。

1 数据基本介绍

目前网络上有很多的租房平台，比如自如、爱屋吉屋、房天下、链家等，其中，链家是目前市场占有率最高的公司，通过链家平台可以便捷且全面地提供可靠的房源信息。

通过网络爬虫技术，爬取链家网站中列出的租房信息(爬取结束时间为2018年9月10日)，具体包括所属区域、小区名称、房屋、价格、房屋面积、户型。需要说明的是，链家官网上并没有提供平谷、怀柔、密云、延庆等偏远地区的租房数据，所以本案例的分析不会涉及这四个地区。

将爬到的数据下载到本地，并保存在“链家北京租房数据.csv”文件中，打开该文件后可以看到里面有很多条(本案例爬取的数据共计8224条)信息，具体如下图所示。

科学计算案例大全_缺失值_02

2数据读取

使用 Pandas读取保存在CSV文件的数据，并将其转换成DataFrame对象展示，便于后续操作这些数据。

首先，读取数据：

科学计算案例大全_缺失值_03

3 数据预处理

尽管从链家官网上直接爬取下来的数据大部分是比较规整的，但或多或少还是会存在一些问题，不能直接用做数据分析。为此，在使用前需要对这些数据进行一系列的检测与处理，包括处理重复值和缺失值、统一数据类型等，以保证数据具有更高的可用性。

3.1重复值和空值处理

预处理的前两步就是检查缺失值和重复值。如果希望检查准备的数据中是否存在重复的数据，则可以通过 Pandas中的 duplicated()方法完成。

接下来，通过 duplicated()方法对北京租房数据进行检测，只要有重复的数据就会映射为True，具体代码如下。

由于数据量相对较多，所以在 Jupyter NoteBook工具中有一部分数据会省略显示，但是从输出结果中仍然可以看到有多条返回结果为True的数据，这表明有重复的数据。这里，处理重复数据的方式是将其删除。接下来，使用 drop_duplicates()方法直接删除重复的数据，具体代码如下。

与上一次输出的行数相比，可以很明显地看到减少了很多条数据，只剩下了5773条数据。

对数据重复检测完成之后，便可以检测数据中是否存在缺失值，我们可以直接使用 dropna()方法检测并删除缺失的数据，具体代码如下。

检测发现不存在缺失值

经过缺失数据检测之后，并无缺失值，因此我们执行dropna()可以发现当前数据的总行数与之前相比没有发生任何变化。

3.2 数据转换类型

在这套租房数据中，“面积(m )”一列的数据里面有中文字符，说明这一列数据都是字符串类型的。为了方便后续对面积数据进行数学运算，所以需要将“面积(m)”一列的数据类型转换为float类型，具体代码如下。

除此之外，在“户型”一列中，大部分数据显示的是“室厅”，只有个别数据显示的是"\房间*卫”(比如索引8219对应的一行)。为了方便后期的使用，需要将“房间"替换成"室"，以保证数据的一致性。

图表分析

数据经过预处理以后，便可以用它们来做分析了，为了能够更加直观地看到数据的变化，这里，我们采用图表的方式来辅助分析。

4.1房源数量、位置分布分析

如果希望统计各个区域的房源数量，以及查看这些房屋的分布情况，则需要先获取各个区的房源。为了实现这个需求，可以将整个数据按照“区域”一列进行分组。

为了能够准确地看到各区域的房源数量，这里只需要展示“区域”与“数量”这两列的数据即可。具体代码如下。

运行结果

区域
朝阳       1597
海淀        605
丰台        577
通州        477
西城        442
大兴        362
昌平        347
顺义        297
门头沟       285
东城        282
房山        180
石景山       175
亦庄开发区     147dtype: int64

科学计算案例大全_缺失值_04

户型数量分析

随着人们生活水平的提高，以及各住户的生活需求，开发商设计出了各种各样的户型供人们居住。接下来，我们来分析一下户型，统计租房市场中哪种户型的房源数量偏多，并筛选出数量大于50的户型。

首先，我们定义一个函数来计算各种户型的数量，具体代码如下。

查看代码

户型
4室1厅      58
3室1卫      92
2室1卫     120
1室1卫     126
4室2厅     191
1室0厅     244
2室2厅     265
3室2厅     489
3室1厅     766
1室1厅     844
2室1厅    2249dtype: int64

plt.barh(res.index,res.values)
plt.title('北京流行住房户型数量统计图')
for i in range(res.size):
    plt.text(y=i,x=res.iloc[i]+1,s=res.iloc[i])
plt.xlim(0,2500)
plt.xlabel('数量')
plt.ylabel('户型')
plt.show()

科学计算案例大全_数据分析_05

通过图可上以清晰地看出，整个租房市场中户型数量较多分别为“2室1厅”、“1室1厅”、“3室1厅”的房屋，其中，“2室1厅”户型的房屋在整个租房市场中是数量最多的。

平均租金分析

为了进一步剖析房屋的情况，接下来，我们来分析一下各地区目前的平均租金情况。计算各区域房租的平均价格与计算各区域户型数量的方法大同小异，具体代码如下。

# 计算总面积
allarea=data.groupby('区域')['面积(㎡)'].sum().astype(float)
# 计算总租金
allmoney=data.groupby('区域')['价格(元/月)'].sum().astype(float)

# 计算平均租金
price=allmoney.truediv(allarea)
price

查看代码

区域
东城144.240383
丰台        86.501407
亦庄开发区     82.423027
大兴        63.731480
房山        47.576464
昌平        70.094810
朝阳       121.502438
海淀       127.238252
石景山       82.863606
西城       151.769685
通州        58.328935
门头沟       51.746947
顺义        65.071786
dtype: float64

为了能更加全面地了解到各个区域的租房数量与平均租金，我们可以将之前各区域房源数量、总面积、总价格、平均价格进行合并展示

# 将所有统计数据，合并为一个dataframe
res=pd.concat([homenums,allarea,allmoney,price],axis=1)
res.columns=['房源总数','总面积','总价格','平均价格']
res

科学计算案例大全_数据分析_06

合并完数据以后，就可以借用图表来展示各地区房屋的信息，其中，房源的数量可以用柱状图中的条柱表示，每平方米租金可以用折线图中的点表示，具体代码如下。

fig=plt.figure(figsize=(20,8))
ax1=fig.add_subplot(111)
ax1.set_ylim(0,1800)
ax1.set_ylabel('房源总数')
bars=plt.bar(res.index,res['房源总数'],alpha=0.5,label='房源总数',width=0.6)
plt.legend(loc='upper left')
# 绘制数值标签
for bar in bars:
    plt.text(bar.get_x() + bar.get_width()/2, #标签的横向坐标
             bar.get_height()+1, #标签的纵向坐标,在柱子顶部上方加1单位间距
             f'{bar.get_height()}',#标签文本内容
             ha='center', #水平对其方式
             va='bottom')#垂直对其方式
#ha='center', va='bottom' 是柱状图标签的黄金组合，确保文本居中且紧贴柱子顶部。


# 显示次坐标轴
ax2=ax1.twinx()
ax2.set_ylim(0,160)
ax2.set_ylabel('平均价格')
plt.plot(res.index,res['平均价格'],'ro--',label='平均价格')
plt.legend()
for i in range(res['平均价格'].size):
    plt.text(x=i,y=res['平均价格'].iloc[i]+1,s=f'{res['平均价格'].iloc[i]:.2f}')

plt.show()

科学计算案例大全_缺失值_07

从图中可以看出，西城区、东城区、海淀区、朝阳区的房租价格相对较高，这主要是因为东城区和西城区作为北京市的中心区，租金相比其他几个区域自然偏高一些，而海淀区租金较高的原因推测可能是海淀区名校较多，也是学区房最火热的地带，朝阳区内的中央商务区聚集了大量的世界500强公司，因此这四个区域的房租相对其他区域较高。

4.4 面积区间分析

下面我们将房屋的面积数据按照一定的规则划分成多个区间，看一下各面积区间的上情况，便于分析租房市场中哪种房屋类型更好出租，哪个面积区间的相房人数最多。

要想将数据划分为若干个区间，则可以使用pandas中的cut()函数来实现，首先，使用max()与min()方法分别计算出房屋面积的最大值和最小值，具体代码如下。

# 查看房屋的最大面积和最小面积
print('房屋最大面积是%d平米'%(data['面积(㎡)'].max()))
print('房屋最小面积是%d平米'%(data['面积(㎡)'].min()))
# 查看房租的最高值和最小值
print('房租最高价格为每月%d元'%(data['价格(元/月)'].max()))
print('房屋最低价格为每月%d元'%(data['价格(元/月)'].min()))

在这里，我们参照链家网站的面积区间来定义，将房屋面积划分为8个区间。然后使用describe()方法显示各个区间出现的次数( counts表示)以及频率(freps表示)，具体代码如下。

# 面积划分
area_divide = [1, 30, 50, 70, 90, 120, 140, 160, 1200]
area_cut = pd.cut(list(data['面积(㎡)']), area_divide)

area_cut_data = area_cut.describe()
area_cut_data

科学计算案例大全_缺失值_08

接着，使用饼图来展示各面积区间的分布情况，具体代码如下。

plt.figure(figsize=(20,8))
labels = ['30平米以下', '30-50平米', '50-70平米', '70-90平米','90-120平米','120-140平米','140-160平米','160平米以上']
plt.pie(x=area_cut_data['counts'],labels=area_cut_data.index)
plt.legend(loc='upper right')
plt.show()