【机器学习入门必看】：零基础掌握五大经典算法（附代码实例）

零基础掌握五大机器学习算法

原创于 2025-10-16 18:59:54 发布 · 581 阅读

CC 4.0 BY-SA版权

第一章：机器学习入门必看：零基础掌握五大经典算法（附代码实例）

机器学习作为人工智能的核心领域，正在广泛应用于推荐系统、图像识别、自然语言处理等场景。对于初学者而言，掌握几类基础且高效的经典算法是迈入该领域的关键一步。以下将介绍五种广泛应用的机器学习算法，并结合 Python 代码实例帮助理解其核心原理与实现方式。

线性回归

线性回归用于预测连续数值输出，通过拟合特征与目标之间的线性关系进行建模。使用 scikit-learn 可快速实现：

# 导入必要库
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

# 生成示例数据
X = np.random.rand(100, 1) * 10
y = 2.5 * X.flatten() + 1.5 + np.random.randn(100)

# 划分训练测试集并训练模型
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
predictions = model.predict(X_test)

决策树

决策树通过递归划分特征空间来进行分类或回归，具有良好的可解释性。

朴素贝叶斯

基于贝叶斯定理与特征独立假设，适用于文本分类等高维数据任务。

支持向量机

SVM 通过寻找最大间隔超平面进行分类，在小样本数据上表现优异。

K-近邻算法

KNN 利用距离度量找到最近的 K 个样本，投票决定预测结果。下表对比了五种算法的特点与适用场景：

算法	类型	优点	典型应用场景
线性回归	回归	简单高效，易于解释	房价预测、趋势分析
决策树	分类/回归	可读性强，无需数据预处理	客户流失预测
朴素贝叶斯	分类	训练快，适合高维数据	垃圾邮件识别

建议初学者从线性回归和决策树入手
熟练掌握 scikit-learn API 是实践的关键
始终对数据进行标准化或清洗以提升效果

第二章：线性回归与逻辑回归

2.1 线性回归原理与数学推导

线性回归是监督学习中最基础的模型之一，其核心思想是通过拟合输入特征与输出标签之间的线性关系，实现对连续值的预测。

模型表达式

线性回归模型的形式为：

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

其中，w 为权重向量，b 为偏置项，x 为输入特征，y 为预测输出。

损失函数定义

采用均方误差（MSE）作为损失函数：

L(w,b) = (1/m) Σ(yᵢ - (w·xᵢ + b))²

目标是最小化所有样本上的平均预测误差。

参数求解过程

通过梯度下降法迭代更新参数：

计算损失函数对权重和偏置的偏导数
沿负梯度方向更新参数：w ← w - α·∇wL

最终收敛至局部最优解，实现模型拟合。

2.2 基于Python实现房价预测模型

数据预处理与特征工程

在构建模型前，需对原始房价数据进行清洗和转换。去除缺失值、异常值，并对分类变量进行独热编码（One-Hot Encoding），数值特征进行标准化处理。

模型构建与训练

采用线性回归模型作为基线，使用scikit-learn库实现：


from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 特征标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

上述代码中，train_test_split 确保数据划分的随机性，StandardScaler 消除量纲差异，LinearRegression 拟合特征与房价间的线性关系，提升预测稳定性。

2.3 逻辑回归分类原理与决策边界

模型基本原理

逻辑回归虽名为“回归”，实则是一种广泛应用于二分类任务的线性模型。其核心思想是通过Sigmoid函数将线性组合输出映射到(0,1)区间，表示样本属于正类的概率：

import numpy as np
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 线性组合
z = np.dot(X, weights) + bias
prob = sigmoid(z)

其中，z为特征与权重的线性组合，sigmoid(z)输出概率值。

决策边界的形成

当概率阈值设为0.5时，对应Sigmoid输入为0，即决策边界由 w·x + b = 0 定义。该超平面将特征空间划分为两个区域。

线性可分数据中，逻辑回归能找到清晰的分离边界
通过最大似然估计优化参数，提升分类置信度

2.4 手写数字二分类实战（0 vs 1）

在本节中，我们将基于MNIST数据集实现一个简单的二分类任务，仅识别手写数字0和1。首先对数据进行筛选和预处理。

数据准备

从MNIST中提取标签为0和1的样本，并归一化像素值至[0,1]区间：


import tensorflow as tf
(x_train, y_train), _ = tf.keras.datasets.mnist.load_data()
# 筛选0和1
idx = (y_train == 0) | (y_train == 1)
x_train, y_train = x_train[idx], y_train[idx]
# 归一化并展平
x_train = x_train / 255.0
x_train = x_train.reshape(-1, 784)

该代码段加载数据后通过布尔索引提取目标类别，归一化提升模型收敛速度，展平操作适配全连接层输入。

模型构建与训练

使用逻辑回归模型进行分类：

输入维度：784（28×28像素）
输出维度：1（二分类输出）
损失函数：二元交叉熵

模型经过5轮训练即可达到98%以上准确率，验证了简单模型在特定子任务中的高效性。

2.5 模型评估指标：准确率、精确率与召回率

在分类模型中，仅依赖准确率可能误导评估结果，特别是在类别不平衡的场景下。因此，需引入精确率（Precision）和召回率（Recall）进行更全面的分析。

核心指标定义

准确率（Accuracy）：正确预测样本占总样本的比例。
精确率：预测为正类的样本中实际为正类的比例。
召回率：实际正类样本中被正确预测的比例。

混淆矩阵与计算示例

	预测为正	预测为负
实际为正	TP	FN
实际为负	FP	TN

precision = TP / (TP + FP)
recall = TP / (TP + FN)

该代码计算精确率与召回率。TP（真正例）、FP（假正例）、FN（假反例）来自混淆矩阵，分别表示预测与真实标签的匹配情况。

第三章：决策树与随机森林

3.1 决策树的构建过程与信息增益

决策树通过递归地划分数据集，将特征空间分割成一系列规则路径。其核心在于选择最优划分属性，信息增益是关键评估指标。

信息增益计算原理

信息增益基于熵的概念，衡量划分前后信息不确定性的减少程度。选择使信息增益最大的特征进行分裂。

def entropy(y):
    from collections import Counter
    counts = Counter(y)
    probabilities = [count / len(y) for count in counts.values()]
    return -sum(p * log2(p) for p in probabilities if p > 0)

该函数计算标签集合的熵值：首先统计各类别出现频率，再依据熵公式求和。log2 需导入 math 模块。

属性选择示例

假设有以下训练样本：

天气	温度	是否打球
晴	高	否
雨	中	是
雨	低	是

通过计算各特征的信息增益，决定根节点分裂属性。增益越大，说明该特征对分类贡献越高。

3.2 使用决策树进行鸢尾花分类

数据准备与特征分析

鸢尾花数据集包含150条样本，涵盖3个类别（Setosa、Versicolor、Virginica），每个样本有4个特征：萼片长度、萼片宽度、花瓣长度和花瓣宽度。使用Scikit-learn可快速加载该数据集。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.3, random_state=42)

代码中将数据划分为训练集（70%）和测试集（30%），random_state确保结果可复现。

构建决策树模型

采用CART算法构建分类树，通过基尼不纯度衡量分裂质量。

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(criterion='gini', max_depth=3, random_state=42)
clf.fit(X_train, y_train)

参数max_depth限制树深，防止过拟合；criterion选择分裂标准。

模型评估

预测测试集并输出准确率：

分类准确率通常可达95%以上
决策路径清晰，具备良好可解释性

3.3 随机森林的集成思想与抗过拟合机制

集成学习的核心思想

随机森林通过构建多个决策树并融合其输出结果，提升模型泛化能力。每棵树在不同数据子集和特征子集上训练，形成多样性，降低整体方差。

Bagging与特征随机性

采用Bootstrap抽样生成多个训练集，并在节点分裂时随机选择部分特征进行最优切分，有效削弱单棵树的过拟合倾向。

每棵决策树独立训练，减少模型相关性
最终预测通过投票（分类）或平均（回归）得出

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, max_features='sqrt', bootstrap=True)

参数说明：n_estimators 控制树的数量，max_features 限制每次分裂的特征数，bootstrap 启用自助采样，三者共同增强抗过拟合能力。

第四章：支持向量机与K近邻算法

4.1 支持向量机的最优超平面理论

在支持向量机（SVM）中，最优超平面是指能够最大化分类间隔的决策边界。该超平面位于两类数据点之间，使得最近的样本点到平面的距离最大，这些最近点称为支持向量。

最大间隔分类器

SVM 的目标是找到法向量 w 和偏置 b，使得超平面 w·x + b = 0 将两类样本分开，并使间隔最大化。优化问题可形式化为：


minimize: (1/2)||w||²  
subject to: y_i(w·x_i + b) ≥ 1, for all i

其中 y_i 为类别标签，x_i 为样本。该凸优化问题通过拉格朗日乘子法求解。

支持向量的作用

只有支持向量会影响超平面的位置。移除非支持向量样本，模型保持不变。这体现了 SVM 的稀疏性与鲁棒性。

4.2 使用SVM进行乳腺癌诊断分类

支持向量机（SVM）在医疗数据分类中表现出色，尤其适用于乳腺癌诊断这类高维、小样本问题。通过寻找最优超平面，SVM能够有效区分良性与恶性肿瘤。

数据预处理与特征选择

使用威斯康星乳腺癌数据集（WDBC），包含30个实数值特征，如细胞核的半径、纹理和光滑度。首先对数据进行标准化处理，以消除量纲影响。


from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

该代码对输入特征进行Z-score标准化，使均值为0、方差为1，提升SVM收敛速度与分类性能。

模型训练与评估

采用RBF核函数构建非线性分类器，并通过交叉验证优化超参数C和gamma。

C：控制正则化强度，防止过拟合
gamma：决定单个样本的影响范围

最终模型在测试集上准确率可达97%以上，显著优于传统统计方法。

4.3 K近邻算法原理与距离度量方式

K近邻（K-Nearest Neighbors, KNN）是一种基于实例的学习算法，其核心思想是：给定一个待分类样本，找出训练集中与其最接近的K个邻居，根据这K个邻居的类别进行投票决定其归属。

距离度量方式

常用的距離計算方法包括：

欧氏距离：适用于连续型特征，计算公式为 $ \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2} $
曼哈顿距离：适合高维稀疏数据，定义为 $ \sum_{i=1}^{n}|x_i - y_i| $
余弦相似度：衡量方向差异，常用于文本分类

K值选择的影响

# 示例：sklearn中KNN分类器
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5, metric='euclidean')
knn.fit(X_train, y_train)
predictions = knn.predict(X_test)

其中 n_neighbors=5 表示选取最近的5个样本参与决策。K值过小易受噪声干扰，过大则可能模糊类别边界。

4.4 KNN在手写数字识别中的应用

数据预处理与特征提取

手写数字识别通常使用MNIST数据集，每个图像为28×28的灰度图。需将其展平为780维向量作为KNN输入特征。像素值归一化至[0,1]区间可提升模型稳定性。

KNN分类实现

使用scikit-learn实现KNN对手写数字分类：


from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import fetch_openml

# 加载MNIST数据
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist.data[:5000], mnist.target[:5000]  # 子集加速训练

# 构建KNN模型
knn = KNeighborsClassifier(n_neighbors=3, weights='distance')
knn.fit(X, y)

参数说明：n_neighbors=3表示采用最近3个邻居投票；weights='distance'使距离更近的邻居具有更高权重，提升分类精度。

第五章：总结与进阶学习路径

构建持续学习的技术栈体系

现代后端开发要求工程师不仅掌握基础语言，还需理解系统设计与运维协同。以 Go 语言为例，深入理解其并发模型是提升服务性能的关键：


package main

import (
    "fmt"
    "sync"
    "time"
)

func worker(id int, jobs <-chan int, wg *sync.WaitGroup) {
    defer wg.Done()
    for j := range jobs {
        fmt.Printf("Worker %d processing job %d\n", id, j)
        time.Sleep(time.Second)
    }
}