数据挖掘03

原创于 2025-12-14 14:24:01 发布 · 719 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据挖掘 #人工智能

数据挖掘专栏收录该内容

2 篇文章

订阅专栏

数据挖掘03

一、多层感知机与神经网络

1.人类大脑与神经元

大脑里边大约有1000亿个神经元，神经元组成了神经网络。
神经元之间通过突触传递电信号。
一个神经元有1000个突触。

2.人工神经网络模型

顾名思义，模拟大脑的神经网络建立的模型，就是神经网络模型。
在这里插入图片描述
那么，
怎么模拟的呢？
节点对应神经元
节点之间的连接对应突触
同时，
每个节点设置激活函数，激活函数决定这些信号是否以及如何被“激发”并继续传播。
连接的强度用一个权重表示。

3.感知器与多层感知器

在这里插入图片描述
从结果我们可以看出来，感知器能使实现二分类。

4.线性回归和逻辑回归

线性回归（Linear Regression）和逻辑回归（Logistic Regression）是机器学习中最基础、最常用的两种监督学习模型，分别用于解决回归问题和分类问题。

虽然名字里都有“回归”，但它们的目标、输出形式和数学原理有显著区别。

（1）线性回归（Linear Regression）

用途：预测连续数值
在这里插入图片描述
目的：试图画一条“最佳拟合直线”穿过数据点。

（2）逻辑回归（Logistic Regression）

在这里插入图片描述
目的：
试图画一条“分界线”，使得两类样本尽可能分开，并给出每个点属于某类的置信度。
所以，逻辑回归是线性分类器。

您是不是发现了：
逻辑回归就是在线性回归的基础上多了一步非线性变换（Sigmoid 函数）

例题：
线性回归难以建模处理二分类问题，而 logistic 回归能处理二分类问题，关于其原因，说法错误的是：

A. 线性回归无论对输入进行怎样的加权操作，都只能得到一个线性模型，不能表示复杂、非线性的模式和关系

B. Logistic 函数能够完美地建模二分类中的非线性关系

C. Logistic 函数将加权输入进行“扭曲”，是一种非线性操作，因此能够建模非线性关系

答案：B

原因：虽然 Logistic 函数本身是非线性的，但是它不能建模复杂的非线性关系，只能处理线性可分的数据，是线性分类器。

5.全连接神经网络

定义：
顾名思义，前一层的每一个神经元节点均与后一层的每一个神经元节点相连接。

在这里插入图片描述

6.激活函数

（1）Sigmoid函数

作用：将任意实数映射到 (0, 1) 区间。

最常用的 Sigmoid 函数形式为：

在这里插入图片描述
图像如下：

常用于二分类任务。

思考：如何改进sigmoid函数，使得改进后的函数能输出正值、负值？

方法：
1.σ(z)−0.5 ，图像向下平移，输出为（-0.5 , 0.5）
2.2σ(z)−1 , 将 Sigmoid 的输出从 (0, 1) 映射到 (-1, 1)

方法2更优。

（2）Tanh函数

Tanh函数（双曲正切函数，Hyperbolic Tangent Function）

1.数学表达式：
在这里插入图片描述

2.图像：
在这里插入图片描述
3.性质：

奇函数：tanh(−x)=−tanh(x)

值域：(−1,1)

平滑可导：处处连续且可微

4.Tanh 函数的导数形式简洁，便于反向传播计算：（后面会讲反向传播）
在这里插入图片描述

看完上面两个激活函数，您肯定发现了Sigmoid函数和Tanh函数的图形一样。

没错！他们二者存在明确的缩放和平移关系：

用数学公式表达：

在这里插入图片描述
我们可以说：
Tanh 函数本质上是经过缩放和平移的 Sigmoid 函数。

（3）Softmax激活函数

1.核心作用：

将一个任意实数向量转换为一个概率分布

即输出的每个元素都在 (0,1) 之间

且所有元素之和为 1。

在这里插入图片描述

2.数学公式：

在这里插入图片描述

其中，

分母是所有指数项之和。

分子就是各个指数项。

显而易见，输出总和为 1。

3.正是Softmax 的“输出总和为 1”这一特性，使得Softmax用于输出层。

解释：

在多分类任务中（比如识别一张图是猫、狗还是鸟），我们希望模型回答：

“这张图属于每个类别的可能性有多大？”

那这就要求：

要求一：每个类别的预测值应在 (0,1) 之间
要求二：所有类别可能性加起来应为 1（因为“必属于某一类”）

Softmax 完美满足要求，所以他常用于输出层。

4.当类别数 K=2（即二分类）时，Softmax 函数在数学上等价于 Sigmoid 函数。

解释：

在这里插入图片描述

（4）ReLU激活函数

ReLU（Rectified Linear Unit，修正线性单元）

1.数学定义：

在这里插入图片描述
2.图像：

3.性质：

1）非线性：虽然分段线性，但整体是非线性的

2）导数简单：

在这里插入图片描述
3）缓解梯度消失：正区导数恒为 1，反向传播时梯度不会衰减（相比 Sigmoid/Tanh）

补充梯度的概念：

对于单变量函数，梯度就是导数；

对于多变量函数，梯度是一个向量，由所有偏导数组成。

梯度指向函数增长最快的方向。

4）可能出现“神经元死亡”（Dying ReLU Problem）现象：

指的是：

某些神经元在训练过程中永远输出 0，且不再对任何输入产生响应，梯度也无法更新其参数。

原因解释：

导数公式：
在这里插入图片描述
由导数定义，我们可以知道：

a.当输入 x≤0 时，梯度为 0；

数学定义：

ReLU(x)=max(0,x)

由公式定义，我们可以知道：

b.当输入 x≤0 时，输出为 0；

那么，我们开始假设：

如果某次前向传播时，某个神经元的输入 z < 0;

就会有

该神经元输出为 0(由b得到)

且反向传播时梯度也为 0（由a得到）

这会导致权重和偏置无法更新。

该神经元就可能永远卡在负值区域，再也“活”不过来，这就是神经元死亡。

（5） Softplus激活函数

Softplus 激活函数是 ReLU（Rectified Linear Unit）的一种平滑近似。

在保持 ReLU 多数优点的同时，

解决了其不可导（在 0 点）和“神经元死亡”等问题。

数学公式：

在这里插入图片描述

图像：
在这里插入图片描述
Softplus 可以看作是 ReLU 的“软化版”：

当 x 较大时，两者几乎重合

当 x 接近或小于 0 时，Softplus 平滑地趋近于 0，而 ReLU 直接截断为 0

（6）GeLU激活函数

GELU（Gaussian Error Linear Unit）

1.数学定义
在这里插入图片描述
具体来说，GELU 将输入 x 视为来自标准正态分布的样本，并计算：

“有多少比例的值小于等于 x”，然后用这个概率加权 x 本身。

其中，
在这里插入图片描述
2.图像

7.损失函数

损失函数（Loss Function）

衡量模型预测值与真实目标之间的差距

是模型训练过程中优化的目标

损失函数的值越小，模型拟合训练集的程度就越高。

8.平均绝对误差函数

平均绝对误差函数（Mean Absolute Error, MAE）

衡量的是模型预测值与真实值之间绝对误差的平均大小。

1.数学公式：

在这里插入图片描述
其中，

2.性质

1）0处不可导

解释：
MAE 的基本单元是绝对误差。

在这里插入图片描述
图像是V字形，顶点在原点 (0, 0)

左侧斜率为 -1，右侧斜率为 +1

由高等数学的知识，我们知道，

在0处，左导数不等于右导数

所以，在0处不可导

2）常用于有监督学习的回归任务

解释：

首先明确：什么是有监督学习的回归任务？

在这里插入图片描述
所以，使用MAE衡量误差，逻辑自然。

其次，对比分类任务：标签是离散类别（如“猫”“狗”），不能直接相减，不能用 MAE。

9.均方误差函数

均方误差（Mean Squared Error, MSE）

对预测误差进行平方后取平均，

“均”：对所有样本取平均（mean）
“方”：对误差取平方（squared）

所以叫均方。

1.数学公式：

在这里插入图片描述
2.性质

1）处处可导

导数公式：

在这里插入图片描述

2）误差越大，梯度越大

由导数公式，我们可以看出：

梯度大小与误差成正比

10.交叉熵函数

交叉熵（Cross-Entropy）

1）分类

有两类：

多分类交叉熵（Categorical Cross-Entropy）
二分类交叉熵（Binary Cross-Entropy, BCE）

11.KL-散度

KL 散度（Kullback-Leibler Divergence），又称相对熵（Relative Entropy）

衡量两个概率分布之间差异

12.防止过拟合的措施

什么是过拟合？

模型在训练集上表现很好，但在测试集上性能差。

根本原因：模型参数过多、过于灵活，拟合了噪声和无关细节。

（1）损失函数的正则化

正则化的核心思想：

“在拟合能力和模型简洁性之间做权衡” —— 奥卡姆剃刀原则

定义：
总损失函数 = 原始损失 + 正则化项
公式如下：
在这里插入图片描述
其中，

λ≥0：正则化强度超参数

λ=0：无正则化
λ 越大，模型越“简单”，但可能欠拟合

常见的两个正则化方法：
L1 正则化（Lasso）
L2 正则化（Ridge Regression / Weight Decay）

（2）随机丢弃

在每次训练迭代中，以一定概率 p（如 0.5）临时将某些神经元的输出置为 0。

这样，模型被迫不依赖任何单个神经元。

例题
在这里插入图片描述
答案：A

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。