- 博客(15)
- 收藏
- 关注
原创 描述算法复杂度的大O表示法
大 ( O ) 表示法(Big-O Notation)用于描述算法的复杂度,主要用于衡量算法的运行时间或空间需求如何随着输入规模增长。如果一个算法由多个部分组成,其总复杂度是这些部分复杂度的最大值。如果一个算法分为两个独立的部分,其总复杂度是两部分复杂度的加法。的底对复杂度无影响,因为不同底的对数之间只差一个常数因子。如果一个算法包含嵌套步骤,总复杂度是各步骤复杂度的乘积。) 关注的是输入规模的增长率,而与常数因子无关。) 只保留增长最快的项,忽略低次项。,常数因子对增长率的影响可以忽略。
2024-12-05 20:33:25
1266
原创 RetinaNet 分类头和回归头的网络结构分析
主干网络(Backbone):通常使用 ResNet(如 ResNet-50 或 ResNet-101)作为特征提取器。特征金字塔网络(Feature Pyramid Network, FPN):在主干网络的不同层级生成多尺度的特征图。分类头(Classification Head):用于对每个锚框(anchor)进行类别预测。回归头(Regression Head):用于对每个锚框进行边界框回归(位置调整)。下图展示了 RetinaNet 的整体架构、分类头和回归头的结构(
2024-10-12 15:51:19
2381
原创 《QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection》论文笔记
QueryDet在RetinaNet的基础上增加了一个query head,classfication head 和regression head的训练过程和RetinaNet保持一致。backbone 的4层特征图P2, P3, P4, P5分别来自ResNet的Conv2_x, Conv3_x, Conv4_x, Conv5_x,P6, P7则来自进一步的下采样,目的是检测更大和超大的物体。K:将第L层的Q向第L-1层做映射得到的坐标构成K,映射方法是,一个点映射到下一层的四个点。
2024-09-26 20:39:36
1256
1
原创 InternLM 大模型实战营笔记-8
在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化。接下来,分别用命令行方式和配置文件的方式评测InternLM2-Chat-1.8B,展示书生浦语在 C-Eval 基准任务上的评估。
2024-09-06 16:25:07
520
原创 InternLM 大模型实战营笔记-6
检索增强生成让基础模型实现非参数知识更新,无需训练就可以掌握领域内的知识。给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。第一种方式,改变了模型的权重即进行模型训练,这是一件代价比较大的事情;第二种方式,并不改变模型的权重,只是给模型引入额外的信息。
2024-09-05 23:44:15
247
原创 InternLM 大模型实战营笔记-5
Prompt用于指导GAI生成特定的内容,通常是一个简短的文本或者问题。提示工程是一种通过设计和调整输入Prompts来改善模型性能或控制其输出结果的技术。大语言模型回复过程的原理是 next token prediction, 即首先获取用户输入的文本,然后处理文本特征并根据输入文本特征预测之后的文本。
2024-09-05 18:00:25
509
原创 InternLM 大模型实战营笔记-4
在完成端口映射后,我们便可以通过浏览器访问 http://localhost:6006 来启动我们的 Demo,如下所示。1、创建开发机,名称为Gryffinor,cuda12.2,ubuntu 20.04,A100 10%配置。4、运行上面的代码:python /root/demo/cli_demo.py。假设自己的开发机端口是XXXXX,在自己本地电脑上执行端口映射。3、创建目录/demo,存放代码文件cli_demo.py。2、激活预置环境icamp3_demo。把本教程仓库 clone 到本地。
2024-09-05 12:40:01
487
原创 InternLM 大模型实战营笔记-3
针对于特定任务、一个模型解决一个任务:一个模型应对多种任务,多种模态,大模型的本质是在做语言建模,通过给定的context,预测下一个token。实现好的训练效果的关键是有高质量的语料。
2024-09-05 11:38:59
462
原创 《AutoFocus: Efficient Multi-Scale Inference》论文笔记
这是一篇讨论如何进行目标检测的论文。进行多尺度目标检测一般都会用到金字塔网络,有的是利用特征金字塔如FPN(Feature Pyramid Network)在大尺度特征图(深层)上检测大目标,在小尺度特征图(浅层)上检测小目标;也有的用图像金字塔如本文。但是对不含目标的区域进行检测会消耗不必要的计算资源,所以通常会采用逐步精细化的检测策略。在本文中,是通过在coarse scale上定位可疑目标,返回区域切片,再在fine scale的切片上进行小目标检测,最后合并各尺度检测结果实现的。
2024-08-03 18:11:32
2074
1
原创 InternLM 大模型实战营笔记-2
编写单词统计函数如下:单词统计结果如下:单词统计结果如下:{‘got’: 2, ‘this’: 1, ‘panda’: 1, ‘plush’: 1, ‘toy’: 1, ‘for’: 3, ‘my’: 1, “daughter’s”: 1, ‘birthday’: 1, ‘who’: 1, ‘loves’: 1, ‘it’: 5, ‘and’: 3, ‘takes’: 1, ‘everywhere’: 1, “it’s”: 2, ‘soft’: 1, ‘super’: 1, ‘cute’: 1, ‘i
2024-08-02 20:35:24
492
原创 对神经网络梯度反传的理解
假设输入图像XXX是一个3×33 \times 33×3的矩阵(即X∈R3×3X∈R3×3),卷积核WWW是一个2×22 \times 22×2的矩阵(即W∈R2×2W∈R2×2),偏置bbb是一个标量。卷积操作:假设输出为2×22 \times 22×2ZConvXWbZConvXWbReLU 激活AReLUZAReLUZ展平:将卷积层经过激活后的输出(即AAA。
2024-07-28 22:54:08
2168
原创 卷积神经网络(CNN)的结构解读
当输入一张大小为8x8x3的彩色图时,已经提前设计好了卷积核的输出通道为5,即卷积核的个数为5【即五个偏置,一个卷积核一个偏置】(通道数的设计一般是实验后得到的较优结果)。下图中,第一列代表输入图像,第二列代表特征图,两幅特征图中的特征值都是[1,0,0,0],但是1的位置不同(代表猫处于图像中的不同位置),就意味着这两个特征图不一样,直接交给程序判别,就会认为两幅图像不一样。卷积核的某个输入通道在对应的图像输入通道上进行滑动时,卷积核的权重是不变的,这意味着对于该图像通道,共享同一组权重值。
2024-07-28 18:43:21
1758
原创 关于domain gap中的invariant features
深度学习模型提取的高层语义特征,比如物体的类别信息和场景语义信息,在不同的领域中也能保持一致,如一个训练在城市街景数据集上的模型可以提取到“车辆”的高层语义信息,这些特征在郊区或者高速公路的数据集上也是一致的。无论是白天还是夜晚,无论是高分辨率的还是低分辨率的图像,物体的轮廓和边缘特征通常都是稳定的,这些特征反映了物体的基本形状和结构,不易受到光照、分辨率或者环境变化的影响。某些物体的颜色在不同的域中也可能使稳定的,如天空的蓝色、草地的绿色、道路的灰色,这些物体在不同的拍摄条件和设备下仍然一致。
2024-07-19 20:42:02
719
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人