从0开始学习机器学习--Day22--优化总结以及误差作业（上）

最新推荐文章于 2025-07-17 19:35:44 发布

Chef_Chen

最新推荐文章于 2025-07-17 19:35:44 发布

阅读量402

点赞数 1

CC 4.0 BY-SA版权

文章标签：机器学习学习人工智能

本文链接：https://blog.youkuaiyun.com/Chef_Chen/article/details/143698479

在之前，我们了解到在算法存在高方差问题时，扩充训练集的数据量有助于降低验证集的误差。那么，是否有其他情况我们可以通过增加数据量来优化算法呢？

假如我们有这样一个学习问题：我需要在{to,too,two}中选出一个填入以下句子：For breakfast, I ate __eggs.在这种问题中，句子的信息越多，算法越有可能得到答案，也就是说训练集数据额定增大是有益的。在房价问题中，假如我们只给了房屋面积的大小以及价格，单纯只靠这个预测到真实的价格的难度是很大的，毕竟还需要考虑所处位置的地价。

其实，这类问题概括起来，只要解决了偏差和方差的问题就可以了，那么我们要做的就是让算法的参数尽可能地多的同时，再增加训练集的数量，这样， $J_{train}(\theta)$ 在前者的作用下会变得很小，而在庞大的数据量的加持下， $J_{train}(\theta)\approx J_{test}(\theta)$ ，这样我们就可以保证 $J_{test}(\theta)$ 很小，从而达到优化算法的目的。

题目：利用水库的水位变化预测大坝的出水量

代码：

import numpy as np
import scipy.io as sio
import matplotlib.pyplot as plt
from scipy.optimize import minimize

def linear(): # 线性回归
    fig, ax = plt.subplo