感知机中重点考虑的知识点以及某点到超平面距离公式的推导

最新推荐文章于 2025-03-22 17:12:06 发布

姝果荔

最新推荐文章于 2025-03-22 17:12:06 发布

阅读量1.8k

点赞数 10

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/longqiancao1/article/details/97391033

版权

感知机中要思考的点：（先思考再补充）

某点到超平面距离公式的推导
损失函数的由来，为什么不考虑前面的系数。
学习率的作用是什么。
随机梯度下降法
算法收敛性中的误分类次数k的不等式
对偶形式中Gram矩阵的含义

1、在感知机中，输入空间Rn中任一点到超平面S的距离为：

推导过程如下（转）：

其中两个向量的点积的公式为这里写图片描述，因为该向量与超平面S平行，所以cosα=+1（or -1）。

2、损失函数的由来，为什么不考虑前面的系数。

这里有讨论到这个问题，但是没有看的很明白（结合SVM）

https://www.zhihu.com/question/36241719/answer/122476382

3、学习率的作用

$\eta$ （0 < $\eta$ $\leq$ 1），学习率，又叫步长，在迭代过程中会控制模型的学习进度。在梯度下降法中，步长：梯度下降迭代过程中每一步沿负方向前进的长度。

步长选择：

步长太大，会导致迭代过快，错过最优解;
步长太小，迭代速度太慢，耗时间太长。

在梯度下降法中，都是给定的统一的学习率，整个优化过程中都以确定的步长进行更新，在迭代优化的前期中，学习率较大，则前进的步长就会较长，这时便能以较快的速度进行梯度下降，而在迭代优化的后期，逐步减小学习率的值，减小步长，这样将有助于算法的收敛，更容易接近最优解。故而如何对学习率的更新成为了研究者的关注点。

在模型优化中，常用到的几种学习率衰减方法有：分段常数衰减、多项式衰减、指数衰减、自然指数衰减、余弦衰减、线性余弦衰减、噪声线性余弦衰减。（转：https://blog.youkuaiyun.com/qq_35290785/article/details/89847734）

使用单层感知机可以表示与门，或门等，但不可以表示异或门（画图直观感受）；
使用2层感知机可以表示异或门（使用与非门，或门，与门实现，y = (~(x1 + x2）) (x1 + x2))；
单层感知机只能表示线性空间，而多层感知机可以表示非线性空间；
感知机可以看成是简单的神经网络。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。