简介
- 监督学习的核心特点是使用带标签的训练数据来训练模型,简单来说,就是通过输入 x x x(特征)推导出输出 y y y(标签),算法的目标是学习从输入到输出的映射关系,以便于对新的、未见过的数据进行预测。
核心概念
训练数据结构
- 特征(features):输入变量,用 x x x表示
- 标签(labels):目标变量,用 y y y表示
- 训练集:包含特征和标签的数据集合
两大类型
1. 分类问题(Classification)
- 分类问题是要找到一条拟合的边界线 ,把两种类别的数据划分开来
- 下面使用一个测试用的乳腺癌数据集来演示分类问题,想通过平均半径和平均纹理来寻找判断良性和恶性肿瘤的划分方式
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
data = load_breast_cancer()
X = data.data[:, :2]
y = data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
plt.figure(figsize=(10, 8))
malignant = X[y == 0]
plt.scatter(malignant[:, 0]