链家网北京市租房数据分析(一)——基于python的数据清洗

本文介绍了如何使用Python进行链家网北京市租房数据清洗,包括数据导入、概览、去除重复值、字段拆分和格式转换,为后续的可视化探索做准备。数据来源公开,提供下载链接,旨在帮助租户理性选择房源,避免黑中介。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作为北漂中的一员,我们都明白,租房是不能回避的问题。租房被坑,也是难以避免的。多数人都有那么一段不堪回首的与黑中介面对面的往事。其实,就是贪图便宜。

便宜可以占,但是我们要理性地占便宜。要有全局观、大局观。

所以,爬取链家网的租房数据,一起来看一看,有哪些性价比高的房子。让我们用科学的手段来选择房子,拒绝黑中介,拒绝撞大运和异想天开。

数据源可至百度网盘提取,永久有效。
链接:https://pan.baidu.com/s/1EqfsnGlb63HeUlKlQfGEgg
提取码:i20b

本项目分为两部分,数据清洗、可视化探索。本文为第一部分,第二部分可前往查看。
链家网北京市租房数据python实战——可视化探索

以下是数据清洗的正文内容,大部分图是jupyter截图或导出图片。

1. 导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot') 

data = pd.read_csv('data_lianjia.csv', encoding='gbk', index_col=False)
data.head()
# 默认语言'gbk',另外要设置inex_col = False 默认原数据无行索引,不然会导致URL默认为行索引。
# 补充:header = False, 默认原数据无列索引。

jupyter截图

2. 数据概览

了解一下数据的基本情况。共有3330条数据。

经纪人有33条缺失,其他字段无缺失。 对于经纪人的缺失,我们不做处理。

data.info() 

在这里插入图片描述

3. 移除重复值

data.duplicated().sum() # 本语句可以看到项目有396条重复值
data = data.drop_duplicates() # 移除重复数据

4. 数据规整

对于各字段做针对性处理。

# 更改部分字段列名,方便记忆
data.rename(columns={
   '房屋类型厅室'
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值