租房数据的分析与可视化
1. 数据检查与预处理
1.1 检查异常值
首先,我们需要检查数据中每列的异常值和离群值。以卧室和浴室列为例,使用以下代码查看唯一值:
df['beds'].unique()
df['baths'].unique()
根据输出,我们发现部分数据存在前导下划线,需要进行修正:
df['beds'] = df['beds'].map(lambda x: x[1:] if x.startswith('_') else x)
df['baths'] = df['baths'].map(lambda x: x[1:] if x.startswith('_') else x)
再次检查唯一值,确保前导下划线已被移除。
1.2 数据类型处理
使用 describe 方法查看数据的描述性统计信息:
df.describe()
发现数据类型不适合进行这些操作,需要进一步清理数据并设置正确的数据类型:
df['rent'] = df['rent'].map(lambda x: str(x).replace('$','').replace(',','')).astype('int')
df['bed
超级会员免费看
订阅专栏 解锁全文

401

被折叠的 条评论
为什么被折叠?



