住房数据探索与分析全流程
1. 数据加载与初步查看
首先,我们使用 pandas 库来加载住房数据。以下是加载数据的代码:
import pandas as pd
def load_housing_data(housing_path=HOUSING_PATH):
csv_path = os.path.join(housing_path, "housing.csv")
return pd.read_csv(csv_path)
这个函数会返回一个包含所有数据的 pandas DataFrame 对象。接着,我们可以使用 head() 方法查看数据集的前五行:
housing = load_housing_data()
housing.head()
每一行代表一个地区,数据集中有 10 个属性,分别是:经度、纬度、房屋中位年龄、总房间数、总卧室数、人口、家庭数、中位收入、中位房屋价值和海洋临近程度。
我们还可以使用 info() 方法快速了解数据的基本信息,包括总行数、每个属性的类型以及非空值的数量:
housing.info()
从输出中我们发现,数据集中共有 20,640 个实例,不过 tot
超级会员免费看
订阅专栏 解锁全文
5

被折叠的 条评论
为什么被折叠?



