- 博客(36)
- 收藏
- 关注
原创 李沐 X 动手学深度学习--第九章 现代循环神经网络
这个构架的思想和HMM的forward recursion和backward recursion没有大区别,主要的区别是:HMM的方程具有特定的统计意义;在小批量时用于将序列填充到相同长度的填充词元(“<pad>”),以及序列的开始词元(“<bos>”)和结束词元“<eos>”)。因为一个较长的序列在(9.8.4)的求和中会有更多的对数项,因此分母中的L“用于惩罚长序列。从这十个值中选择最大的两个,即P(A,B,D|c)和P(C,E,D|c),我们会得到六个候选输出序列:(1)A;f:一些可学习的函数;
2025-04-03 22:24:55
868
原创 李沐 X 动手学深度学习--第六章 卷积神经网络
通过逐渐聚合信息,生成越来越粗糙的映射,最终实现学习全局表示的目标,同时将卷积图层的所有优势保留在中间层。当检测较底层的特征时(eg:前面的图像边缘),我们通常希望这些特征保持某种程度上的平移不变性。eg:如果我们拍摄黑白之间轮廓清晰的图像x,并将整个图像向右移动一个像素,即z[i,j]=X[i,j+1],则新图像z的输出可能大不相同。而在现实中,随着拍摄角度的移动,任何物体几乎不可能发生在同一像素上。
2024-12-20 14:35:02
2242
1
原创 李沐 X 动手学深度学习--第八章 循环神经网络
由上述图表可知,单步预测效果不错,时间步超过600+4(n_train + tau)的预测结果看起来也是可信的,但是。例如,“猫”(cat)和“猫科动物”(feline)可能出现在相关的上下文中,但是。(ps:t对于上图的这种序列通常是离散的,并且t在整数或者整数的子集上变化。eg:未来24小时的天气预报往往还算准确,但超过这一点,精度就会迅速下降。最后,长单词序列大部分是没出现过的,因此。以上图近30年的富时100指数,其中,用。的观测序列,其在时间步t+k处的预测输出。为例:=0,不应用平滑;
2024-12-20 14:06:19
2138
原创 李沐 X 动手学深度学习--第七章 现代卷积神经网络
导入:本章介绍的神经网络是将人类直觉和相关数学见解结合后,经过大量研究试错后的结晶。本章按时间顺序介绍这些模型,在追寻历史的脉络的同时,帮助培养对该领域发展的直觉(炼丹的直觉),这有助于研究开发自己的架构。CV研究人员认为推动领域进步是数据特征而不是学习算法,从对最终模型精度的影响来说,更大/更干净的数据集或是稍微改进的特征提取,比任何学习算法带来的进步要大得多。另一个预测这个领域发展的方法---观察图像特征的提取方法。图像特征提取方法的历史: AlexNet的更高层建立在这些底层表示的基础上,以表示更大的
2024-12-18 16:07:04
1104
原创 李沐 X 动手学深度学习--4.5+4.6 解决过拟合的方法
使用L2范数而不是L1范数的原因:L2正则化线性模型构成岭回归(ridge regression)算法,L2范数对权重向量的大分量施加了巨大的惩罚,使得我们的学习算法偏向于在大量特征上均匀分布权重的模型,可能使得它们在对单个变量中的观测误差更为稳定;但是线性模型没有考虑特征之间的交互作用,对于每个特征,线性模型必须指定正的或负的权重,而忽略其他特征,其泛化的可靠性是有代价的。经典泛化理论认为:“好”的预测模型:能在未知的数据上有很好的表现,为了缩小训练和测试性能之间的差距,应该以简单的模型为目标。
2024-11-26 11:07:26
647
原创 肆十二--YOLOv8原理解析 学习笔记
下图是YOLOv8在coco目标检测的一些性能结果:左图:x:参数量(根据卷积层的宽度和深度区分,n:Nano,s:small, m:medium, l:large, x:xlarge);y:coco的mAP右图:x: Latency A100 TensorRT FP16;y:coco的mAP。
2024-10-10 19:01:52
1037
原创 李沐 X动手学深度学习 数据操作+数据预处理 学习笔记(无代码,纯理论部分)
机器学习和神经网络最主要的的数据结构:N维数组标量,eg:1.0(是一个浮点数,可能表示一个类别)向量,eg:[1.0, 2.7, 3.4](特征向量,样本抽象成一个数字)矩阵,eg:[4.3,8.5,0.2]](一个样本的特征矩阵,该矩阵就是有3个样本,每一行就是一个样本,每一列就是样本的特征eg:一张图片,RGB图片(宽:列数,高:行数,通道数)n个3维数组放在一起,eg:一个RGB图片的批量(批量大小 x 宽 x 高 x 通道)
2024-10-09 21:04:57
323
原创 刘二大人《PyTorch深度学习实践》完结合集Overview学习笔记
数字是抽象的:2个苹果,2条鱼,其实这个2就是个抽象的量化统计概念,并没有指定其到底是啥,仅是个量化的抽象概念,所以我们说数字是抽象的(
2024-10-08 14:36:26
829
原创 李宏毅 X 苹果书 自注意力机制 学习笔记下
输入第四个向量输入时,把第四向量跟前一个时间点产生出来的输出再一起做处理,得到新的输出再通过全连接网络的层。入的序列,而循环神经网络的每一个向量只考虑了左边已经输入的向量,它没有考虑右边的向。考虑最左边的输入,它就必须把最左边的输入存在记忆里面,才能不“忘掉”,一路带到最右。之前在做自注意力的时候,所谓的关联性是网络自己找出来的。出的时候,每一个向量是同时并行产生的,因此在运算速度上,自注意力会比循环神经网络。把自注意力用在图上面的时候,我们可以在计算注意力矩阵的时候,只计算有边相连的节点。
2024-10-07 16:48:40
1118
原创 Datawhale X 南瓜书 task01学习笔记
研究关于“学习算法”(一类能从数据中学习出其背后潜在规律的算法)的一门学科PS:深度学习指的是:神经网络那一类学习算法,因此是机器学习的子集机器学习演变到现在,神经网络算法的效果是最好的,机器学习的其他算法能做的事,神经网络也能做,所以就把深度学习单列出来了。
2024-09-18 23:35:49
799
原创 建模导论的最后一个视频笔记
如果还可以在缺点的后面写出未来发展方向是最好,可以用什么办法来降低缺点的影响。分问题之间的逻辑关系:问题二是问题一的细化,问题三是问题二的扩展。说明解题的每一个步骤用了什么,为什么用这个,怎么用。缺点:不要提特别严重的错误,避重就轻。明确问题类型:问题一是xxx优化问题。对大任务分解:就把解题步骤明确写出来。问题解答完毕之后必须画出来一个流程图。文献就是在问题重述中加重问题背景。1.5页就要有一个图。
2024-09-05 11:50:28
494
原创 Datawhale X李宏毅苹果书进阶 AI夏今营 task03学习笔记
batch normalization(批次标准化)batch normalization--Tarining直接改error surface的landscape,把山“铲平” 有时候尽管error surface是个“碗”,都不见得好train。如下图所示:w1,w2对loss的斜率差别很大,w1方向上斜率变化很小,w2方向上斜率变化很大,直接用固定的learning rate很难train,所以需要自学习的learning rate,这种比较高阶的optimization或者是这个task的
2024-09-03 23:34:52
1061
原创 Datawhale X李宏毅苹果书进阶 AI夏今营 task02学习笔记
所以 softmax 除了归一化,让 y′1、y′2 和y′3,变成 0 到 1 之间,和为 1 以外,它还会让大的值跟小的值的差距更大。因为 θ1 坡度小,根据式 上图最后一个式子,θi1 这个参数上面算出来的梯度值都比较小,因为算出来的梯度值(loss)都比较小,所以算出来的 σit 就小,σit 小学习率就大。反过来,θ1 坡度大,所以计算出的梯度都比较大,σit 就比较大,在更新的时候,步伐(参数更新的量)就比较小。左上角圆圈所在的点有斜率的,所以可以通过梯度,一路往右下的地方“走”;
2024-08-31 23:48:53
1145
原创 Datawhale x李宏毅苹果书进阶 AI夏今营 task01学习笔记
(局部极小值,即是四周最低点,但不是全局最低点,四周都比这个点高,机器判断不出来这个点之外的有没有比这个更低点)(鞍点,即左右高,前后低,机器根据前后低判断这个不是最低点)((由于网络复杂,其损失函数也是很复杂,只能估计,不能表示准确的)当所有的gi都为0则就是g=0即找到critical point判断判断H的特征值正local min(负local max(有正有负。
2024-08-27 23:51:57
1179
原创 Datawhale x李宏毅苹果书入门 AI夏令营 task03学习笔记
通过比较不同层数的model判断现在的model够不够大,如果高model比低model效果差,那么就是高model的optimization出现问题(56-layer的前20-layer和20-layer做一样的事,56层的后36层竟然没有帮助反而拖后腿。
2024-08-27 19:33:34
588
原创 Datawhale x李宏毅苹果书入门 AI夏令营 task02学习笔记
红色的曲线可以看作是一个常数再加上一群 Hard Sigmoid 函数。(Hard Sigmoid 函数的图线就是蓝色图线)黑色的可以由红色线无限逼近,当取的点够多,黑色的就可以用红色的表示,而红色的又可以由蓝色组成,则黑色的可以用蓝色的表示,即曲线可以由Hard Sigmoid 函数图像表示但是Hard Sigmoid 函数表示比较麻烦(Hard Sigmoid 函数是分段函数要写三个分式),所以用 Sigmoid 函数来逼近 Hard Sigmoid,(Hard Sigmoid 不一定非要换成Sigmo
2024-08-26 18:00:07
627
原创 Datawhale X 李宏毅苹果书入门 AI夏令营 task01学习笔记
梯度下降有一个很大的问题,不一定会找到真正最好的解,(即找到可以让损失最小的 w。但如果在梯度下降中,w0 是随机初始的位置,也很有可能走到 wT 这里,训练就停住了,无法再移动 w 的位置。右侧红点这个位置是真的可以让损失最小的地方,称为全局最小值(接下来反复进行刚才的操作,计算一下 w1 微分的结果,再决定现在要把 w1 移动多少,再移动到 w2,再继续反复做同样的操作,不断地移动 w 的位置,最后会停下来。),其左右两边都比这个地方的损失还要高一点,但是它不是整个误差表面上面的最低点。
2024-08-25 17:43:06
661
原创 Datawhale 数学建模导论国赛C学习笔记
数据集中所有数值的算术平均数。计算方式是将所有数据值加总后除以数据的总数量。均值反映了数据的中心趋势。[ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} ]其中,( x_i ) 是数据值,( n ) 是数据数量。:数据集中最大的数据值,用于描述数据的上界。:数据集中最小的数据值,用于描述数据的下界。:将数据按升序排列后位于中间位置的数值。如果数据数量是偶数,中位数是中间两个数值的平均值。
2024-08-16 22:51:38
1087
1
原创 Datawhale 数学建模导论国赛B学习笔记
1)选取贪心策略,根据贪心策略从模型的所有定义域上的数据出发,筛选得出当前问题最优解,缩小问题规模;2)采用迭代方法,根据贪心策略对未求解部分循环求解,求出局部最优解集合,进一步缩小问题规模;3)将所有子问题的解的集合进行优化,使其满足原问题;4)综合所有解,验证结果。基于贪心算法的板式家具订单备料调度研究 杨冰,魏新莉,胡孙跃,苏利江,杜辉模拟退火算法既简单又直观,以自然的优化过程为基础。退火过程包含了不同的调试参数,主要有:初始温度T0、冷却调度a候选解的产生、终止准则等。
2024-08-13 23:25:46
742
原创 Datawhale Al夏令营第四期 大模型应用开发task1学习笔记
直接调用大模型API:将请求直接发送给相应的服务商,如openai,讯飞星火等,等待API返回大模型回复。等)则用于组织和排列这些输入和输出组件,以创建结构化的用户界面。初始投入后,长期运行成本相对固定,避免了按使用量付费的不确定性。输入(文本框,按钮,下拉框,滑块,复选框,文件上传,等等)不需要关心模型的a.维护和更新,服务商通常会负责这些工作。需要强大的计算a.资源,如高性能GPU,初期投资成本较高。需要稳定的网络a锽斯.连接,可能会受到网络延迟的影响。公共组件(用户信息存储,帮助,以及输出html)
2024-08-11 22:55:27
938
原创 Datawhale 数学建模导论第十章学习笔记
通常,这里涉及的是像X-Text这样的多模态数据集,其中包含了图像-文本对(Image-Text),视频-文本对(Video-Text)以及音频-文本对(Audio-Text)。除了低通滤波器外,scipy.signal模块还为我们提供了一系列强大的工具,可以用来设计不同类型的滤波器,从基本的低通和高通滤波器到更复杂的带通和带阻滤波器。你可以通过调整滤波器的类型和参数来满足你的需求。这种方法对序列中的每个位置赋予一个特定的向量,该向量的值与位置有关,确保模型在处理过程中能够区分不同的词语顺序。
2024-08-07 22:46:16
950
原创 Datawhale Al夏令营第三期 AI+物质科学task3学习笔记
在机器学习中,Transformer 是一种基于注意力机制的深度学习模型,特别适用于处理序列数据,尤其是在自然语言处理(NLP)领域中取得了显著的成就。Transformer 最初由Vaswani等人在2017年的论文《Attention is All You Need》中提出,并已经成为现代NLP模型的主流架构之一。
2024-08-03 21:53:00
254
原创 Datawhale Al夏令营第三期 Al+物质科学task2学习笔记
AI4Science是一个较为普遍的术语,通常指的是人工智能在科学研究和技术发展中的应用。它涵盖了各种科学领域,包括物理学、化学、生物学、地球科学等。虽然没有一个特定的确切历史,但可以描述人工智能在科学研究中的一些早期里程碑和发展趋势。
2024-07-31 22:26:26
957
原创 Datawhale 数学建模导论第八章学习笔记
时间序列的分解模型的概念:一种用来将时间序列数据分解成不同组成部分的方法。是将时间序列拆解成上述几个成分,这样可以更好地理解时间序列数据中不同影响因素的贡献,帮助分析趋势、预测未来发展趋势或者提取季节性调整数据。:加法指的是时间序分的组成是,四个成分都有。加法模型假设时间序列是趋势、噪声、季节性和随机性的加和:[ Y_t = T_t + S_t + C_t + I_t ]: 乘法模型输出部分和趋势项有相同的量纲,季节项和循环项是比例数,不规则变动项为独立随机变量序列,服从正态分布。
2024-07-30 21:53:07
870
原创 Datawhale AI夏令营第三期 AI+物质科学task1学习笔记
随机森林的决策树的集成:多个决策树组成,每棵树都独立训练于随机抽样的子数据集(bootstrap抽样)和随机选择的特征子集。这种随机性有助于增加模型的多样性,减少过拟合的风险。随机森林的集成预测:针对回归问题,随机森林中的每棵决策树都会输出一个预测值。在预测时,随机森林会对所有决策树的预测结果进行平均(或加权平均),从而得到最终的回归预测值。
2024-07-28 21:18:48
287
原创 Datawhale 数学建模导论第七章学习笔记
综合评价是针对研究的对象,建立一个进行测评的指标体系,利用一定的方法或模型,对搜集的资料进行分析,对被评价的事物作出定量化的总体判断。从前面这些评价类模型的性质来看,评价类模型的核心指标体系权重计算评分规则。一个好的指标体系是计算权重和评分的基础。如果没有一个好的指标体系,我们就无法对问题做出客观全面准确的评价,也无法使用前面讲述的评价类模型。构建好的指标体系需要遵循以下几个步骤明确目标与目的:首先需要明确指标体系的目标和目的,以确保所选择的指标与所需评估的目标紧密相关。
2024-07-27 22:24:41
2200
原创 Datawhale 数学建模导论第六章学习笔记
不同形式的信息均可数化 ,而不同模态的数据又往往能联合起来对同一事物进行描述。在此基础上建立的模型称之为多模态模型。
2024-07-24 21:55:39
917
原创 Datawhale AI夏令营task2学习笔记
表示”是实数向量,每个数字(维度)记为一个特征,每一个特征都有一个含义,(怪不得有时候ai翻译驴唇不对马嘴)解码器把“表示“作为输入,生成目标语言。编码器-解码器模型:先编码,再解码。机器翻译问题贴合编码器解码器结构特点,当今的主流的神经机器翻译系统中的编码器组成部分:词嵌入层和中间网络层。解码器:比编码器多了输出层和编码解码注意力子层。
2024-07-20 15:25:45
229
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人