一、线性回归

1. 模型表示

  让我们通过一个例子来开始:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。这就是线性回归的一个例子。
房屋价格预测
  一种可能的表达方式为:hθ(x)=θ0+θ1xh_\theta \left( x \right)=\theta_{0}+\theta_{1}xhθ(x)=θ0+θ1x,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
\newline
\newline

2. 代价函数

  在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式:hθ(x)=θ0+θ1xh_\theta \left( x \right)=\theta_{0}+\theta_{1}xhθ(x)=θ0+θ1x
train data
  我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
MSE
  我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数 :J(θ0,θ1)=12m∑i=1m(hθ(x(i)−y(i))J\left(\theta_{0},\theta{1}\right) = \frac{1}{2m}\sum\limits_{i=1}^m\left( h_\theta { (x^{(i)}-y^{(i) } } \right)J(θ0,θ1)=2m1i=1m(hθ(x(i)y(i))最小
我们绘制一个等高线图,三个坐标分别为θ0\theta_{0}θ0θ1\theta_{1}θ1J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1)

  则可以看出在三维空间中存在一个使得J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1)最小的点。
  代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。
\newline
\newline

3. 梯度下降

  梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J(θ0,θ1)J\left( \theta_{0}, \theta_{1}\right)J(θ0,θ1)的最小值。
  梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,θ2......θn)\left(\theta_{0},\theta_{1},\theta_{2}......\theta_{n}\right)(θ0,θ1,θ2......θn),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
   想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。
   批量梯度下降(batch gradient descent)算法的公式为:
gradient descent
   其中α\alphaα是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
gradient descent algorithm

3.1 梯度下降直观理解

   梯度下降算法如下:
   θj:=θj−α∂∂θjJ(θ)\theta_j:=\theta_j-\alpha \frac{\partial}{\partial{\theta_j}}J\left(\theta\right)θj:=θjαθjJ(θ)
   描述:对θ\thetaθ赋值,使得J(θ)J\left(\theta\right)J(θ)按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中α\alphaα是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。
在这里插入图片描述
   让我们来看看如果α\alphaα太小或α\alphaα太大会出现什么情况:
   如果α\alphaα太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果α\alphaα太小的话,可能会很慢,因为它会一点点挪动,它会需要很多步才能到达全局最低点。
   如果α\alphaα太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果α\alphaα太大,它会导致无法收敛,甚至发散。
   现在,我还有一个问题,当我第一次学习这个地方时,我花了很长一段时间才理解这个问题,如果我们预先把J(θ1)J\left(\theta_{1}\right)J(θ1)放在一个局部的最低点,你认为下一步梯度下降法会怎样工作?
   假设你将J(θ1)J\left(\theta_{1}\right)J(θ1)初始化在局部最低点,在这儿,它已经在一个局部的最优处或局部最低点。结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优点,它使得J(θ1)J\left(\theta_{1}\right)J(θ1)不再改变,也就是新的J(θ1)J\left(\theta_{1}\right)J(θ1)等于原来的J(θ1)J\left(\theta_{1}\right)J(θ1),因此,如果你的参数已经处于局部最低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使学习速率α\alphaα保持不变时,梯度下降也可以收敛到局部最低点。

3.2 梯度下降的线性回归

   梯度下降算法和线性回归算法比较如图:
在这里插入图片描述
   对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:
∂∂θjJ(θ0,θ1)=∂∂θj12m∑i=1m(hθ(x(i))−y(i))2\frac{\partial }{\partial {{\theta_{j} }}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{\partial }{\partial {{\theta_{j} }}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}θjJ(θ0,θ1)=θj2m1i=1m(hθ(x(i))y(i))2

j=0j=0j=0 时:∂∂θ0J(θ0,θ1)=1m∑i=1m(hθ(x(i))−y(i))\frac{\partial }{\partial {{\theta_{0}}}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{1}{m}{{\sum\limits{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}θ0J(θ0,θ1)=m1i=1m(hθ(x(i))y(i))

j=1j=1j=1 时:∂∂θ1J(θ0,θ1)=1m∑i=1m((hθ(x(i))−y(i))⋅x(i))\frac{\partial }{\partial {{\theta_{1}}}}J({{\theta_{0} }},{{\theta_{1} }})=\frac{1}{m}\sum\limits{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}θ1J(θ0,θ1)=m1i=1m((hθ(x(i))y(i))x(i))

   则算法改写成:

Repeat {

θ0:=θ0−a1m∑i=1m(hθ(x(i))−y(i)){\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}θ0:=θ0am1i=1m(hθ(x(i))y(i))

θ1:=θ1−a1m∑i=1m((hθ(x(i))−y(i))⋅x(i)){\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}θ1:=θ1am1i=1m((hθ(x(i))y(i))x(i))

​ }

内容概要:《中文大模型基准测评2025年上半年报告》由SuperCLUE团队发布,详细评估了2025年上半年中文大模型的发展状况。报告涵盖了大模型的关键进展、国内外大模型全景图及差距、专项测评基准介绍等。通过SuperCLUE基准,对45个国内外代表性大模型进行了六大任务(数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、幻觉控制)的综合测评。结果显示,海外模型如o3、o4-mini(high)在推理任务上表现突出,而国内模型如Doubao-Seed-1.6-thinking-250715在智能体Agent和幻觉控制任务上表现出色。此外,报告还分析了模型性价比、效能区间分布,并对代表性模型如Doubao-Seed-1.6-thinking-250715、DeepSeek-R1-0528、GLM-4.5等进行了详细介绍。整体来看,国内大模型在特定任务上已接近国际顶尖水平,但在综合推理能力上仍有提升空间。 适用人群:对大模型技术感兴趣的科研人员、工程师、产品经理及投资者。 使用场景及目标:①了解2025年上半年中文大模型的发展现状与趋势;②评估国内外大模型在不同任务上的表现差异;③为技术选型和性能优化提供参考依据。 其他说明:报告提供了详细的测评方法、评分标准及结果分析,确保评估的科学性和公正性。此外,SuperCLUE团队还发布了多个专项测评基准,涵盖多模态、文本、推理等多个领域,为业界提供全面的测评服务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值