
深度学习
文章平均质量分 57
你若盛开,清风自来!
一路IT深似海,从此学习无绝期!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
Transformer是2017年火起来的。原创 2024-02-06 00:05:27 · 3534 阅读 · 0 评论 -
卷积神经网络
在深度学习中,深度学习,深度学习,用更深的网络去提取原始数据当中的特征,是这么理解的吧,那应该是层数越多越好吧,是这样的一个事儿吗。因为在实验当中发现一个事儿,这个事儿挺奇怪的,就是16层的网络要比30层网络,继续堆叠就是重复的加这些卷积和池化,16层的时候比30效果好。边缘填充(padding):越往边界的点,能够计算的次数越少,越接近中间的点,计算次数越多,为了使得边界的点计算次数多,引入padding,弥补边界信息缺失的问题(边界提取特征不充分问题),使得网络能够更加公平的对待边界特征。原创 2024-01-18 11:28:47 · 966 阅读 · 0 评论 -
机器学习——主成成分分析PCA
如上图所示,一共有4个属性,身高( m为单位),身高(cm),时速(每小时公里),时速(每小时里),身高的两个属性是相关的,时速的两个属性也是相关的,我们把四组具有相关性的变量转换成了两组不相关的变量,我们把转换后的这2组变量称为它的主成分。说白了,就是这两组变量能够代表这个人的身高特征和骑自行车的特征。在实际的数据中,用肉眼可能看不出这些数字的相关性,所以 要通过算法找出哪些特征和哪些特征是线性相关的,这就是主成分要做的事儿。换一种说法,找到一条直线,使得所有点到直线的距离的平方和最短。原创 2024-01-15 14:46:05 · 599 阅读 · 0 评论 -
过拟合和欠拟合
训练误差会随着模型容量增加,训练误差开始下降;泛化误差会下降,降低到某一个点的时候,开始上升。模型足够复杂,通过各种手段控制模型容量,使得最后泛化误差往下降。通过控制这两个属性来控制模型的复杂度。第一个模型过于简单,第二个过于拟合。我们更多的关注泛化误差。原创 2024-01-12 14:45:00 · 462 阅读 · 0 评论 -
感知机、多层感知机、激活函数sigmoid
和做内积加上一个偏置常熟b,让其做一个函数,以前回归输出的是实数,softmax回归输出的是概率。原创 2024-01-11 16:19:00 · 448 阅读 · 0 评论 -
最小二乘法,极大似然估计,交叉熵
我们在训练神经网络的时候,其实就是用神经网络中的各种模型去和人脑中的这个模型去匹配,匹配的方式就是调整图像尽量和它重合。我们想用神经网络的模型去逼近人脑中的概率模型,和这个极大似然估计的过程就非常像。左边是人脑模型,右边是神经网络模型,人脑模型我们对猫有一个明显的识别边界,神经网络中总会有些偏差,我们想让神经网络的模型和我们人脑中的模型尽量一致。极大似然估计,本质上就是在计算神经网络里面的概率模型的似然值,找到那个极大似然值,这个就应该是最接近现实情况的那个概率模型。比较两种概率模型的差距的方法。原创 2024-01-11 15:26:02 · 534 阅读 · 0 评论 -
线性回归中的似然函数、最大似然估计、最小二乘法怎么来的(让你彻底懂原理)收官之篇
如图4,最小二乘法是我们通过误差表达式化简得到的,化简后的表达式一共分为两部分,一个是常数,另一个就是去掉系数后的最小二乘法表达式,规定这个表达式即为最小二乘法。当我们进行求解的时候,对于机器来说,加法比较容易求解,对于乘法求解比较复杂,所以引入对数似然。参数要和所有的数据进行组合,不能仅满足一些样本,要满足所有的样本,要进行整体的一个考虑,要看所有的样本能不能进行一个满足。有些复杂的损失函数,我们很难用数学的方法,求出损失函数的全局最小值以及对应的参数值,这就是为什么需要梯度下降算法的原因。原创 2023-12-20 19:51:19 · 1420 阅读 · 0 评论