数据准备与加载
房价预测是一个经典的回归问题,Scikit-learn内置的波士顿房价数据集(已弃用)或加利福尼亚房价数据集可用于演示。以下示例使用fetch_california_housing加载数据:
from sklearn.datasets import fetch_california_housing
import pandas as pd
data = fetch_california_housing(as_frame=True)
X = data.data # 特征数据
y = data.target # 目标值(房价中位数)
print(X.head())
数据探索与可视化
通过直方图和散点图分析特征分布与目标值的关系:
import matplotlib.pyplot as plt
X.hist(bins=50, figsize=(12, 8))
plt.show()
plt.scatter(X['MedInc'], y, alpha=0.3)
plt.xlabel('Median Income')
plt.ylabel('House Price')
plt.show()
数据预处理
标准化数值特征并拆分数据集:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(
X_scaled, y, test_size=0.2,

最低0.47元/天 解锁文章
1154

被折叠的 条评论
为什么被折叠?



