机器学习算法系列（一）- 感知器学习算法（PLA）

原创

已于 2022-04-14 20:35:57 修改 · 7.3k 阅读

69 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习算法系列 #感知器 #PLA

于 2022-01-03 14:15:31 首次发布

本文介绍了感知器学习算法，从模型介绍、原理证明到代码实现，探讨了如何利用数学和编程构建简单的线性分类模型，处理邮件垃圾邮件问题。

阅读本文需要的背景知识点：数学基础知识、一丢丢编程知识

一、引言

前面一节我们了解了机器学习算法系列（〇）- 基础知识，接下来正式开始机器学习算法的学习，首先我们从最简单的一个算法——感知器学习算法（Perceptron Learning Algorithm）开始。
我们在使用电子邮件时，应该注意到现代邮箱都有反垃圾邮件的功能，系统根据邮件的内容自动判断是否是垃圾邮件，节省了我们的时间，试想一下这个功能应该如何实现呢？

我们可以先收集一批邮件，总结出对判断是否是垃圾邮件有用的一些特征值（例如：邮件是否包含链接、邮件出现过多少个营销词语、邮件的发送时间等等），然后对每一封邮件先人工的判断是否是垃圾邮件，最后试图通过这些数据来找到里面所包含的关联关系。以后给到一封新邮件的时候，我们就可以通过这些关系来判断是否是垃圾邮件了。

二、模型介绍

回想一下在初中生物教材上介绍过的神经细胞，它是由树突、轴突、突触和细胞体组成的结构体。神经细胞是否激活并输出电信号是由其接收到的输入信号量和突触的强度所决定的，当其总和超过某个阈值时，细胞体就会激动并输出电信号。由这一神经细胞的行为，人们提出了感知器的概念和对应的感知器学习算法。
感知器¹（Perceptron）是一种二元线性分类器，将一个线性可分的数据集通过线性组合分成两种类型。在人工神经网络领域中，感知机也被指为单层的人工神经网络。
几何意义：在二维平面内找到一条直线将两种类型的数据完全分开。在高维空间里为找到一个超平面将两类数据分开。

By Elizabeth Goodspeed - Own work, CC BY-SA 4.0

数学定义：把矩阵上的输入 X（实数值向量）映射到输出值 h(x) 上（一个二元的值 -1 或 +1 ）。假设存在 d 个 x ，通过 w 的加权求和，大于某个临界值时返回 +1，小于某个临界值时返回 -1。
$\begin{array}{cc} \sum_{i=1}^{d} w_{i} x_{i}>\text { 临界值 } & +1(A \text { 分类 }) \\ \sum_{i=1}^{d} w_{i} x_{i}<\text { 临界值 } & -1(B \text { 分类 }) \end{array}$

将上式写成一个函数的形式（sign函数称为符号函数²，当输入小于 0 则输出 -1，当输入大于 0 则输出 +1）
$\operatorname{sign}\left(\sum_{i = 1}^dw_ix_i - 临界值\right)$

将负的临界值当作第 0 个 w，正1 当作第 0 个 x
$h(x)=\operatorname{sign}(\left(\sum_{i=1}^{d} w_{i} x_{i}\right)+\underbrace{(-\text { 临界值 })}_{w_{0}} \cdot \underbrace{(+1)}_{x_{0}})$