Task:预测NYC的房屋价格
airbnb['price'].describe 对price字段的理解:
min为0,是真实数据抑或错误数据
max为10000,是真实数据抑或错误数据
中位数比平均值要小
用describe函数观察所有字段并对字段具体表示内容进行了解
先粗略分析price与哪个字段相关:
猜测:neighbourhood,room_type,mininum_nights,availability_365
airbnb.corr()

由于corr()只计算数值类型,所以难以体现room_type与price的相关性,需要进行转换
增加字段,用replace()将room_type转换为数值
数据清洗:
airbnb.info()
airbnb.isnull().sum()
可以用drop去掉与本次分析无关的列数据
airbnb.corr(method='kendall') 用肯德尔方法计算相关性系数
import matplotlib.pyplot as plt
plt.figure(figsize=(15,8))
sns.heatmap(corr,annot=True)
plt.show()

该博客通过分析NYC的Airbnb数据,探讨了价格与其相关字段如neighbourhood, room_type, minimum_nights, availability_365等的关系。使用描述性统计和相关性分析,发现中位数小于平均值,且room_type与price的相关性需要数值化表示。通过数据清洗和分组分析,使用boxplot展示不同因素对价格的影响。最后,应用KNN回归模型预测房价,得到约39元的均方误差。"
132649270,19694693,C#泛型类型参数:编写可重用与类型安全的代码,"['C#', '泛型', '编程', '类型安全', '代码复用']
最低0.47元/天 解锁文章
1023

被折叠的 条评论
为什么被折叠?



