通过上面的描述信息,我们可以知道该数据集包含150条数据,每50条数据属于一个类别,即有三个类别,每一条数据有四个特征。
target_names 键对应的值是一个字符串数组,里面包含我们要预测的花的品种:
print("Target names: {}".format(iris_dataset['target_names']))
输出:
Target names: ['setosa' 'versicolor' 'virginica']
由此,我们可以知道鸢尾花数据集iris包含3类鸢尾花,分别为山鸢尾(Iris-setosa)、杂色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)
feature_names 键对应的值是一个字符串列表,对每一个特征进行了说明:
print("Feature names: \n{}".format(iris_dataset['feature_names']))
输出:
Feature names:
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
由此,我们可以知道每条数据包含4个特征:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width)
**数据包含在 target 和 data 字段中。**data 里面是花萼长度、花萼宽度、花瓣长度、花瓣宽度的测量数据,格式为 NumPy 数组:
print("Type of data: {}".format(type(iris_dataset['data'])))
输出:
Type of data: <class 'numpy.ndarray'>
data 数组的每一行对应一朵花,列代表每朵花的四个测量数据:
print("Shape of data: {}".format(iris_dataset['data'].shape))
输出:
Sha