- 博客(410)
- 资源 (1)
- 收藏
- 关注

原创 【python|attention】注意力机制代码
every blog every motto: You can do more than you think.0. 前言梳理目前主流的注意力机制代码,目前以pytorch为例。说明: 特征图维度的组织形式为:(batch,channel,height,width)1. 正文1.1 SEBlock 2017考虑通道间的注意力之间的关系,在通道上加入注意力机制论文:https://arxiv.org/abs/1709.01507代码:https://github.com/hujie-frank
2021-06-27 09:31:35
34242
21

原创 【tf.keras.Model】构建模型小结(部分问题未解决)
every blog every motto: You can do more than you think.0. 前言对于构建深度学习网络模型,我们通常有三种方法,分别是:Sequential APIFunctional APISubclassing API说明: 推荐使用functional API.本文主要对有关子类API(tf.keras.Model)构建模型时“两种方法”进行比较分析。注: 为保持文章的完整性,本文仅就部分问题进行探讨,后续问题见下一篇博文。1. 正文
2020-10-27 22:11:58
2905
4

原创 【Tensorflow、Keras】关于Reshape层小结(部分问题未解决)
every blog every motto: We would rather reuse an active dwarf than a sleeping giant.0. 前言reshape层说起来不复杂,就是改变特征图的尺寸,但在实际过程中,却发现了有意思的问题,遂记之。暂未解决。1. 在模型中1.1 Keras的Reshape1.1.1 Keras正常情况代码部分from keras.layers import *input = Input((16, 16, 3))print
2020-06-22 21:09:13
7481
2
原创 【python|二分|leetcode441】一题搞清楚二分区间问题---闭区间、左闭右开、左开右闭、全开区间
一题搞清楚二分区间问题—闭区间、左闭右开、左开右闭、全开区间* <=是闭区间* < 开区间,具体哪种由mid的取值决定* m = (left + right)//2,向下取整,所以left能够取到,左闭右开 `[)`* m = (left + right + 1)//2, 向上取整,right能够取到,左开右闭 `(]`
2025-03-11 15:31:23
728
原创 【LLAMA】羊驼从LLAMA1到LLAMA3梳理
LLAMA 1到3梳理在之前的大语言模型(GPTs)中,基于模型越大效果越好进行实验。然而,Hoffmann等人(2022)最近的工作表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由经过更多数据训练的较小模型实现的。Hoffmann等人(2022)的缩放定律的目标是确定如何最佳地缩放特定训练计算预算的数据集和模型大小。然而,这个目标忽略了推理时间,这在大规模服务语言模型时变得至关重要。因为大部分社区用户其实没有训练 LLM 的资源,他们更多的是拿着训好的 LLM 来推理。
2025-02-19 19:03:54
993
原创 【GPT】从GPT1到GPT3
从GPT1 到GPT3时间模型参数量层数词向量长度训练数据2018.6GPT1117M127685G2019.2GPT248160040G2020.5GPT3175B3612288570G关于参数,如下是GPT2-small示例:参考。
2025-02-19 16:07:29
1368
原创 【位置编码|Position】位置编码之---正余弦位置编码
位置编码(Position Encoding)是自然语言处理(NLP)和其他序列模型(如 Transformer)的一个关键概念,用于为输入序列中的每个元素提供位置信息。在处理序列数据时,模型需要了解元素之间的相对位置,以便更好地理解上下文和顺序。周期是Tbaseid∗2πTbaseid∗2π,下图是d = 100,i = 10,不同base的情况随着base的增大,周期随之增加,这样重复的值就会少。
2025-02-19 09:56:18
553
原创 【PCL】350A4D40]vtkOpenGLPolyDataMapper:328 WARN| vtkOpenGLPolyDataMapper::SetGeometryShaderCode was
every blog every motto: You can do more than you think.https://blog.youkuaiyun.com/weixin_39190382?type=blog350A4D40]vtkOpenGLPolyDataMapper:328 WARN| vtkOpenGLPolyDataMapper::SetGeometryShaderCode was deprecated for VTK 9.0 and will be removed in a future v
2024-07-26 15:26:58
271
原创 【ubuntu】安装(升级)显卡驱动,黑屏|双屏无法使用问题解决方法
ubuntu 安装(升级)显卡驱动,黑屏|双屏无法使用问题解决方法由于项目需要,对显卡驱动进行升级。升级完就黑屏。。。。,双屏也只能显示一个。。。。
2024-07-01 17:24:27
1451
原创 ImportError: cannot import name ‘model_urls‘ from ‘torchvision.models.resnet‘
every blog every motto: You can do more than you think.https://blog.youkuaiyun.com/weixin_39190382?type=blog如下代码出现问题:报错:解决办法:
2024-06-15 17:50:06
983
原创 【异常检测】【EfficientAD】论文简单梳理与代码实现
EfficientAD作为较近的一篇异常检测网络,主要还是从S-T网络入手,对齐进行了相关改进。修改特征提取器引入自动编码器hard loss以及惩罚项。
2024-05-31 10:32:16
2183
转载 深度学习架构迎来最强挑战者 KAN,MLP 的时代结束了?
作者通过一个示例(包含变量 x 和 y 的复合函数)来展示网格扩展的效果,说明随着网格点数量的增加,训练损失迅速下降,但测试损失呈现先降后升的 U 形曲线,反映了偏差-方差权衡的问题。(Frank Rosenblatt)在他的著作《Perceptron》中介绍了一个包含输入层、隐藏层(该隐藏层具有随机且不进行学习的权重)以及具有学习连接的输出层的分层网络,如今这被视为 MLP 的雏形,它并不等同于现代意义上具有反向传播能力的 MLP,也未形成深度学习网络的概念。这种设计允许网络更灵活地逼近复杂的函数关系。
2024-05-06 11:03:48
583
原创 【Transformer】detr之loss逐行梳理(四)
detr之loss逐行梳理匹配,预测框和gt框进行匹配计算损失""""""self.num_classes = num_classes # 数据集类别数self.matcher = matcher # HungarianMatcher() 匈牙利算法 二分图匹配self.weight_dict = weight_dict # dict: 18 3x6 6个decoder的损失权重 6*(loss_ce+loss_giou+loss_bbox)
2024-04-26 14:52:27
1568
原创 【分配】linear_sum_assignment函数
分配问题小结,linear_sum_assignment 函数使用的是Jonker-Volgenant algorithm算法。
2024-04-25 14:31:41
3129
原创 【Transformer】Swin梳理
every blog every motto: You can do more than you think.https://blog.youkuaiyun.com/weixin_39190382?type=blogswin论文: https://arxiv.org/pdf/2103.14030v1.pdf时间: 2021.3.25作者: Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo网
2024-04-18 09:37:37
334
原创 【机器学习之---数学】随机游走
随机游走定义如下:随机游走Snn≥0Snn≥0为随机过程SnS0x1XnSnS0x1...Xn其中,X1X2X1X2...是独立同分布(i.i.d)随机变量,与S0S_0S0无关。
2024-03-26 10:16:57
2482
原创 【机器学习之---数学】马尔科夫链
马尔科夫链Xt−2Xt−1XtXt−1...Xt−2Xt−1XtXt−1...,那么Xt−1X_{t-1}Xt−1时刻的状态,只与Xt−1X_{t-1}Xt−1时刻的状态有关,与Xt−2X_{t-2}Xt−2时刻的状态无关。
2024-03-26 09:59:44
2502
1
原创 【Transformer】transformer注解
transformer注解在过去的一年里,《Attention is all you need》中的transformer一直萦绕在很多人的脑海里。除了在翻译质量上产生重大改进之外,它还为许多其他NLP任务提供了一种新的架构。论文本身写得很清楚,但传统观点认为很难正确执行。在这篇文章中,我将以逐行实现的形式呈现论文的注释版本。我重新整理并删除了原论文中的一些章节,并在全文中添加了注释。这个文档本身就是一个工作笔记本,应该是一个完全可用的实现(可以在jupyter notebook中运行)。
2024-03-23 21:10:35
964
原创 【经典算法】有趣的算法之---粒子群算法梳理
粒子群算法粒子群算法(Particle Swarm Optimization,PSO)是一种用于解决优化问题的元启发式算法。它通过模拟鸟群或鱼群中的行为来进行优化搜索。在粒子群算法中,问题的潜在解被表示为一群粒子。每个粒子代表一个候选解,并根据其自身的经验和群体的信息进行移动和调整。粒子的位置表示候选解的特征向量,速度表示粒子在搜索空间中的移动方向和速度。粒子群算法广泛应用于各种优化问题,如函数优化、神经网络训练、组合优化等。它是一种简单且易于实现的优化算法,具有全局搜索能力和较好的收敛性。
2024-01-17 16:22:19
9663
3
MVTec LOCO AD dataset 之 juice-bottle
2024-06-06
机器学习实战:基于Scikit-Learn、Keras和TensorFlow
2023-12-28
Hands-On Deep Learning Architectures with Python Create deep neu
2023-12-28
Hands-On Genetic Algorithms with Python: Applying genetic algori
2023-12-28
蚁群算法matlab版
2023-12-28
蚁群算法python版
2023-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人