
深度学习
文章平均质量分 69
记录苹果书中内容
柯南博客园
这个作者很懒,什么都没留下…
展开
-
初识机器学习
机器学习可以看作是找函数的问题,其类型可以分为回归,分类,结构化学习回归是根据一个预测对象的相关数值因素,来预测该对象的未知数值。例如:预测PM2.5的明天的数值,则可以将今天的PM2.5相关数值,温度,臭氧浓度等相关数值作为输入,则由机器学习模型(可看作一个函数)来预测下一天的PM2.5数值作为输出分类是对于输入对象可以根据模型算法来进行分类,其分类结果的范围是已知的,其标签是已经设定好的。分类任务要让机器做选择题,例如:AlphaGo,其输出结果也是分类结果,即棋盘19*19的位置作为分类标签。原创 2024-08-26 21:11:28 · 589 阅读 · 1 评论 -
自注意力机制(上篇)
在进行语义情感分析时,判断其是积极还是消极的,对于语句的处理,往往是将词转化为向量,而一个句子则是一组向量序列,需要将这组向量序列输入到模型中,才能输出其是积极还是消极的。对于词汇的编码,有很多方法,其一,独热编码,即有多少词汇,则向量的维度即是多少,这种方法可以让词汇之间没有关联。可以看到特点,其编码只有一个维度是1,其余均为0.其二,词嵌入。将词汇表示成向量,其向量中包含语义的信息,所以可以通过向量计算出事物之间的关联。相似的事物会相距较近。原创 2024-09-07 13:08:28 · 1232 阅读 · 0 评论 -
自适应学习率
为了解决标签之间的距离关系问题,设计了独立向量,使得标签之间是独立的。分类问题常常需要考虑独热向量。原创 2024-08-31 14:15:09 · 1263 阅读 · 0 评论 -
自注意力机制(下篇)
位置编码用来记录向量的位置当然很多位置向量是借助正弦和余弦函数进行设定的,那么可以采用其他的方法吗?答案是肯定的,其位置向量的设定有很多种,同时目前也正处于研究之中。比如循环神经网络其实也可以用来产生位置编码,但其效果可能大多不如正弦函数。原创 2024-09-07 13:28:32 · 434 阅读 · 0 评论 -
寻找模型训练最优点
引入动量后,每次在移动参数的时候,不是只往梯度的反方向来移动参数,而是根据梯度 的反方向加上前一步移动的方向决定移动方向。一般梯度下降走到一个局 部最小值或鞍点时,就被困住了。但有动量还是有办法继续走下去,因为动量不是只看梯度, 还看前一步的方向。即使梯度方向往左走,但如果前一步的影响力比梯度要大,球还是有可能 继续往右走,甚至翻过一个小丘,也许可以走到更好的局部最小值,这就是动量有可能带来的 好处。原创 2024-08-27 14:55:14 · 618 阅读 · 0 评论 -
为什么使用激活函数?
神经网络不是新的技术,80、90 年代就已经用过了, 后来为了要重振神经网络的雄风,所以需要新的名字。每一排称为一层,称为隐藏层(hidden layer),很多的隐藏层就“深”,这套技术称为深度学习。从图中可以观察到红色线条(分段线性曲线)作为真实情况是无法用类似一条蓝色线条来描述的,同时我们可以看到不同的w影响的是斜率,不同的b影响的是截距。这也是为什么我们平时看见的神经网络是多层的原因,其实归根到底,一个完整的网络激活函数的使用采用的是这两种方式。其实Relu,和Sigmoid都是常用的激活函数。原创 2024-08-30 22:45:15 · 438 阅读 · 0 评论 -
循环神经网络
RNN是一种由记忆的网络,通常会把隐藏层的输出存入记忆单元,在下一层输入时,不仅仅要考虑输入的信息,还要考虑记忆单元的信息。记忆元简称单元,记忆元的值被称为隐状态。假设所有激活函数都是线性的,所有的权重都是1,输入序列为[1,1],[1,1],[2,2].可以计算出三次的输出值分别是[4,4],【12,12】,【32,32】RNN的架构输入信息上海相同,但是记忆元的值不一样,导致其输出结果不同。原创 2024-09-08 11:02:30 · 400 阅读 · 0 评论 -
批量归一化&卷积神经网络
A:彩色图像的每个像素都可以描述为红色(red)、绿色(green)、蓝色(blue)的组 合,这 3 种颜色就称为图像的 3 个色彩通道。这种颜色描述方式称为 RGB 色彩模型, 常用于在屏幕上显示颜色。图像有大有小,而且不是所有图像尺寸都是一样的。常见的处理方式是把所有图像先 调整成相同尺寸,再“丢”到图像的识别系统里面。以下的讨论中,默认模型输入的图像 尺寸固定为 100像素 × 100像素。一张图像是由 100×100×3 个数字所组成的,把这些数字排成一排就是一个巨大的向量。原创 2024-09-03 21:15:20 · 1259 阅读 · 0 评论 -
模型如何进行优化
首先,我们需要考虑一个问题,就是模型的设计问题,模型设计过于简单,却用来处理复杂问题,导致模型的效果不佳,则这是模型的偏差导致的;如果模型设计较为复杂,但是模型的测试集结果不如简单模型的效果,我们需要对两个模型的训练集加以分析,如果复杂模型的训练集效果比简单模型的训练集效果差,那原因只有一个,就是复杂模型的优化做的不好。这种情况,我们需要先看测试集损失值,如果测试集损失值很小,那么我们的模型训练很成功,如果测试集训练的结果不好,其损失值比较大,我们需要考虑是过拟合 或者 测试集与训练集不匹配的问题。原创 2024-09-01 21:39:29 · 775 阅读 · 0 评论