项目目标:
使用机器学习算法(如 K-近邻算法)来对鸢尾花数据集进行分类。
1. 准备工作
首先,我们需要安装一些常用的机器学习库,如 scikit-learn
和 pandas
。
pip install scikit-learn pandas matplotlib
2. 导入必要的库
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
3. 加载数据集
scikit-learn
提供了内置的鸢尾花数据集,我们可以直接导入。
from sklearn.datasets import load_iris
# 加载鸢尾花数据集
iris = load_iris()
# 转换为DataFrame便于查看
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['species'] = iris.target
print(data.head())