- 博客(65)
- 收藏
- 关注
原创 NNDL 作业三
使用平方损失时,损失函数对于参数 ww 会变成非凸函数,容易陷入局部极小值,优化困难。当预测值 y^y^ 接近 0 或 1 时,sigmoid 函数的梯度很小,而平方损失的梯度也依赖于 sigmoid 的梯度,这会导致梯度很小,参数更新缓慢。Logistic 回归通常使用交叉熵损失(或对数损失),这来自于伯努利分布的极大似然估计,它与平方损失相比,对分类问题更合适,收敛更快,且是凸函数。所以,虽然可以形式上用平方损失,但实际训练效果差,不推荐。
2025-10-10 16:31:45
437
原创 NNDL 作业二
交叉熵损失的定义是:(和上面的公式一样,不必纠结)。这要求必须是一个概率分布,即且。它也要求 yiyi 是一个概率分布(在标签平滑中,即使是硬标签也可以视为one-hot分布)。在回归问题中,可以是任意实数(例如,预测房价可以是 50.5万,100.2万),它不满足概率分布的约束条件。强行将其压缩到 [0, 1] 区间会丢失信息,并且毫无意义。
2025-10-09 12:21:21
632
原创 天梯赛备赛回忆录
其实就是简单的一道并差集,但是许多细节注意:1.判断连接的条件:a.圆与上下面的判定条件if(abs(q[i].z-0)<=r)p[find(i)]=find(0);b.圆与圆之间的连通的判定条件最后得到上下界面连通即可,所以就是判断二者是否在一个连通块里面。
2025-10-09 11:24:40
433
原创 csp认证.矩阵运算
从后算的话时间复度是d的平方*n,因为d远小于n,所以要从后面算,不然会爆掉;第二个是矩阵中数字的大小,int会爆掉,所以选择long long存储。这道题由两个坑,第一个是复杂度问题:如果从前往后正常算的话时间复杂度是n的平方*d,
2024-04-02 09:14:04
360
原创 机器学习.线性回归
因为需要大量的数据去完善最后的参数,使得参数更加准确,因为乘法难解,所以可以加上对数转换成加法,而且转换后虽然L的数值改变了,但是我们要求取的是斯塔为何值使得L最大,所以不改变最后的斯塔数值。这个公式就是对目标函数求偏导得出方向,因为梯度下降是沿这原来的反方向走,所以后面那个公式前面的符号改变成+号,表示在原来的初始位置斯塔j的位置走那么长的距离。在写代码时,只需要完成上图花圈的部分就可以,m代表所有样本的个数,y代表真实值,h斯塔是预测值,xij也是样本中本来有的。答案是分别计算,因为参数具有独立性。
2024-02-25 16:22:31
683
原创 数模.matlab画图
一、mesh函数上图是平常用到的方式例题:上图的meshgrid函数相当于上上图的前三个指令(temp,x,y)mash函数:mashc函数:mashz函数:上图subplot函数的作用是将下标为index的图片放到对应的x,y的矩阵里面,如图就是这张图放在下标为1的1x2的矩阵里面surf函数surfc函数surfl函数contour函数c
2024-02-04 17:28:32
1400
原创 机器学习.线性回归
因为需要大量的数据去完善最后的参数,使得参数更加准确,因为乘法难解,所以可以加上对数转换成加法,而且转换后虽然L的数值改变了,但是我们要求取的是。这个公式就是对目标函数求偏导得出方向,因为梯度下降是沿这原来的反方向走,所以后面那个公式前面的符号改变成+号,表示在原来的初始位置。0是偏置项,在训练过程中为了使得训练结果更加精确而做的微调,不是一个大范围的因素,核心影响因素是权重项。0后面乘x0,使得满足矩阵的转换,所以在处理数据时候会添加如有上图所示的x0一列全是1的数据。的过程并没有一个学习的过程。
2024-01-29 23:28:52
504
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅