from sklearn import datasets # 此模块包含了很多用于机器学习的数据集。
diabetes = datasets.load_diabetes() # 使用load_diabetes函数加载糖尿病数据集。
# 该数据集包含442行数据和10个属性值,分别是年龄(Age)、性别(Sex)、体质指数(Body mass index)、平均血压(Average Blood Pressure)和一年后疾病级数指标(S1~S6)。
# Target是一年后患疾病的定量指标,适合用于回归任务print(datasets) # 糖尿病数据
x_data = diabetes.data # 获取特征数据
# diabetes_data是通过pandas库中的read_csv函数读取名为diabetes.csv的数据文件得到的数据集。
# 这个数据集包含了关于葡萄糖、血压、皮肤厚度、胰岛素、身体质量指数等特征的信息y_data = diabetes.target # 获取目标数据
print('特征数据:\n',x_data)
# (442,10)442个数据,每行数据有10个特征数据,相当于y=a1 x1+a2 x2+...a10 x10
print(x_data.shape)
print('目标数据:\n',y_data)
print(y_data.shape)# 把数据集拆分成:训练集和测试集
from sklearn.model_selection import train_test_split # 用于将数据集拆分为训练集和测试集。 train训练,test测试,split拆分
线性回归糖尿病预测
最新推荐文章于 2025-04-11 18:12:34 发布