八股文——机器学习基础损失函数

原创

已于 2024-06-11 21:08:40 修改 · 850 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

于 2024-03-21 22:11:16 首次发布

本文详细介绍了常见的代价函数（如二次代价函数和交叉熵），以及损失函数（针对回归和分类的绝对值、平方、对数和交叉熵等）。强调了不同函数在梯度、收敛速度和鲁棒性方面的特性，并解释了为何在回归和分类问题中选择特定损失函数的原因。

一、常见的代价函数

1、二次代价函数

J=1/2nΣ||a(x)-y(x)||^2

对于一个样本而言，J=(y-a)/2

激活函数的梯度越大，权值w和b大小调整的越快，训练收敛的越快

假使激活函数是sigmoid函数，当使用二次代价函数时，很可能会出现梯度消失，使用sigmoid函数在饱和区即x过大或者过小时，梯度是接近于0

2.交叉熵代价函数

J=-1/nΣ[yln(a)+(1-y)ln(1-a)]

更适合搭配sigmoid激活函数

二、常见的损失函数

1.用于回归

绝对值损失函数和平方损失函数

绝对值损失函数MAE

平方损失函数MSE

MSE比MAE可以更快的收敛，当使用梯度下降算法时，MSE梯度下降是变化的，MAE梯度损失是均匀不变的，梯度不发生改变不利于模型的训练（调节学习率）。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangziling123456

关注关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【RePo】机器学习八股文

0x00

09-11

1万+

机器学习八股文

大模型实习必备八股文 之 机器学习（一）

Mary的博客

01-11

1091

Sigmoid 函数Sigmoidz1e−x1二元交叉熵损失。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2024.03.22
非常棒的博文！你对八股文和机器学习基础损失函数做了深入的探讨，写得非常清晰易懂。希望你能继续分享更多相关主题的文章。在机器学习领域，除了损失函数的选择，还有很多其他重要的概念和技能需要掌握。比如，可以学习关于梯度下降算法的优化方法，以及不同类型的神经网络结构和调参技巧。同时，也可以深入了解一些常用的Python库，如TensorFlow或PyTorch，来实现更复杂的机器学习模型。希望你能在学习的过程中不断进步，不断探索！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

机器学习八股文

weixin_43570470的博客

08-09

3756

机器学习面试笔试求职必背

机器学习深度学习八股表格（由AI整理）

最新发布

weixin_45715390的博客

10-09

599

由AI整理的机器学习&深度学习八股表格，适合面试等速成场景快速记忆。

机器学习八股文(考研复试自用)

weixin_54262350的博客

03-25

3180

机器学习起源于上世纪50年代，1959年在IBM工作的Arthur Samuel设计了一个下棋程序，这个程序具有学习的能力，它可以在不断的对弈中提高自己。由此提出了“机器学习”这个概念，它是一个结合了多个学科如概率论，优化理论，统计等，最终在计算机上实现自我获取新知识，学习改善自己的这样一个研究领域。

【秋招】算法岗的八股文之机器学习

qq_42312574的博客

08-02

1万+

为了便于后续的下游任务中特征距离计算，为了消除特征间单位和尺度差异的影响，以对每维特征同等看待，需要对特征进行归一化。余弦相似度：计算两个向量之间夹角的余弦值，余弦值接近1说明夹角趋近0，表示两个向量相似。表示激活函数，【激活函数是用来加入非线性因素的，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题。模型假设：自变量的变化对因变量的影响是通过一个逻辑函数（sigmoid函数）体现的。这个模型中包含了许多不同的网络模型，以下将根据他们之间的应用侧重来浅显的解析概念。的代价函数是交叉熵函数。

八股文——机器学习基础优化函数

wangziling123456的博客

03-23

468

缺点是随着时间的推移，历史梯度平方和会越来越大，那么学习率会越来越小，最后趋近于0，最后导致模型的参数虽然还具有较大梯度，但是参数却无法更新。因为频繁更新参数，参数方差大，会使目标函数剧烈抖动，一方面能更快的是目标函数跳到局部极小值，一方面会使目标函数在最小值附近上下波动。计算一个batch内的样本，更新参数，这个方法参数更新快，方差小，使用内存小，n通常取2的指数。能使更新幅度很大的参数的学习率变小，是更新幅度很小的参数学习率也减小。现根据当前的动量往前走一步，然后到达下一个点，计算此时的梯度更新。

八股文——机器学习基础激活函数

wangziling123456的博客

03-22

343

1.relu是分段函数2.relu本质上是分段线性激活函数，但可以不断分段逼近非线性激活函数当该网络足够复杂时，理论上relu可以逼近任意非线性激活函数。

八股文——机器学习基础模型评估

wangziling123456的博客

04-07

1563

计算公式召回率(预测结果中真正的正例数)/(样本中所有的正例数)这里需要注意一个特点，真阳性率和召回率是一致的。召回率是对样本的评判样本中有多少正样本被预测正确了精确率是对预测结果的评判计算公式 Precision=(预测结果中真正的正例数)/(预测结果中的正例数)预测结果中的正例数正例数包含两个方面1 正的预测为正的2 负的预测为正的如果查准率很大，当样本预测为正例时，那么这个样本为正例的把握就很大(1)首先，ROC曲线的横坐标是假阳性率FPR，纵坐标是真阳性率TPR。

八股文——机器学习基础归一化

wangziling123456的博客

03-27

489

不同特征之间往往量纲不同，变化区间的数量级也不同，这就会导致某些指标可能会被忽略，影响最终结果为了消除特征之间的量纲影响，需要进行归一化处理，解决特征之间的可比性，使各个特征之间处于同一数量级，可以直接进行对比评价。

机器学习_八股

qq_45972323的博客

04-11

3813

这里称J(a,b)为损失函数，明显可以看出它是个二次函数，即凸函数，所以有最小值。当J(a,b)取最小值的时候，f(x)和y的差异最小，然后我们可以通过J(a,b)取最小值来确定a和b的值。

机器学习面试笔试求职必背！八股文（1/5）

大厂offer宝典

08-29

1万+

算法工程师，技术软件类求职机器学习必背八股文 更多算法/业务/HR面等笔试题面试题 —— >个性签名自取！ 1. 特征工程： 1.1 为什么要对特征做归一化处理： Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术。特征间的单位（尺度）可能不同，比如身高和体重，比如摄氏度和华氏度，比如房屋面积和房间数，一个特征的变化范围可能是[ 1000 , 10000 ] [1000, 10000][1000,10000]，另一个特征的变化范围可能是[ −.

【5】机器学习算法面试八股

weixin_44125042的博客

07-15

1000

若卷积神将网络的上一层有N个卷积核,则对应的通道数也为N。设群数目为M,在进行卷积操作的时候,将通道分成M份,每个group对应N/M个通道,然后每个group卷积完成后输出叠在一起,作为当前层的输出通道。

机器学习的8篇文章

weixin_34203426的博客

07-10

444

Time Series Prediction with LSTM Recurrent Neural Networks in Python with Keras Time series prediction problems are a difficult type of predictive modeling problem. Unlike regression predictive m...

【13】机器学习算法面试八股

weixin_44125042的博客

07-16

974

空洞卷积或者膨胀卷积是在标准的卷积核里注入空洞，以此来增加感受野。相比原来的正常convolution，dilated convolution 多了一个超参数称之为 dilation rate（空洞率）优点是在保持同等计算量的情况下可以扩大感受野，缺点是存在网格效应，丢失局部像素信息。。感受野用来表示网络内部的不同神经元对原图像的感受范围的大小。神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。

【机器学习】大模型面试八股含答案

fengdu78的博客

10-12

7350

原作者：花甘者浅狐感谢这位朋友辛苦整理，访问知乎原文https://zhuanlan.zhihu.com/p/643560888基础知识1.transformer 八股文a.Self-Attention的表达式 b.为什么上面那个公式要对QK进行scaling scaling后进行softmax操作可以使得输入的数据的分布变得更好，你可以想象下softmax的公式，数值会进入敏感区间，防止梯度消失...

【AI算法岗面试八股面经【超全整理】——机器学习】