from sklearn.datasets import load_boston
报错
ImportError:
`load_boston` has been removed from scikit-learn since version 1.2.
原因是:
因为数据集涉及种族问题,所以在sklearn 1.2版本中被移除。
解决方法其实在报错的地方就给了:
import numpy as np
import pandas as pd
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep=r"\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
其中data就是这个数据集(除了最后一列),如下:
[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
[2.7310e-02 0.0000

本文讲述了在sklearn1.2版本中移除`load_boston`数据集的原因,并提供了解决方案,即从原始数据源下载并手动处理波士顿房价数据集,包括使用numpy和pandas进行数据预处理和PCA降维,用于回归分析。
最低0.47元/天 解锁文章
830

被折叠的 条评论
为什么被折叠?



