深度学习从损失函数的理解来看训练集选择的重要性

最新推荐文章于 2025-09-24 19:26:05 发布

原创最新推荐文章于 2025-09-24 19:26:05 发布 · 6.6k 阅读

9 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文从损失函数角度探讨训练集选择的重要性。以线性回归为例，说明训练集和现实数据分布不同会使优化的损失函数与真实数据的损失函数不同，导致优化方向错误。强调深度学习中认真准备训练数据可能是大幅提升模型准确率的有效方式，挑选训练集需谨慎。

无论在深度学习还是在机器学习中，我们都绕不开几个名词，训练集，模型，损失函数。一般来说选择一个好的损失函数可以让我们尽量避免局部最优点以及有一个比较理想的训练速度。

之前在看吴恩达的深度学习课程的时候，只是从逻辑上明白，在训练模型的时候，训练集和测试集要有相同的分布，即它们是同分布的。这样不至于让我们在训练集上面的到的模型在我们的实际应用中的表现表现的不尽人意。今天有兴趣又看了吴恩达的机器学习的课程，里面对于损失函数的讲解又一次让我从损失函数的角度重新审视训练数据。

下面让我们以最简单的线性回归来进行说明。

我们知道，在线性回归中，我们想要得到的模型函数是 $f (x) = W X + b$
而在模型的训练过程中，我们要训练出来一个比较好的参数 $W, b$ 就需要通过迭代优化损失函数 $J (W, b)$ 来进行模型的优化。一般来说线性回归通常用平方和误差来进行表示，例如 $\frac{1}{m} \sum_{i=1}^m(Wx^{(i)} + b - y^{(i)})^2$

上面两个函数其实涉及两个过程

预测过程。其实是固定参数 $W, b$ , 通过给定输入 $x$ 获取模型给我们预测 $y^=f(x)\hat y = f(x)$ , 那么这里的 $f (x)$ 其实就是关于 $x$ 的函数。
优化过程。这里需要优化的就是 $minimize_{W,b}J(W, b)$ , 这个过程中就需要我们的训练数据，我们可以换个角度来想，不管训练数据有多少个，训练数据确定的时候我们就可以认定，在损失函数中的 $x^{(i)}, y^{(i)}$ , 也就是说把他们看做是常数，那么 $J$ 也就是 $W, b$ 的函数。也就是说这里的训练数据的分布其实就相当于损失函数的参数。