- 博客(79)
- 收藏
- 关注
原创 L1正则项与L2正则项
L1正则化倾向于将一些不重要的特征所对应的权重完全压缩到0。L2正则化使权重均匀缩小:L2正则化不会把任何权重强制设为0,而是将所有的权重以同等比例向零缩小。L1(菱形):菱形的顶点在坐标轴上。当等高线与菱形边界相交时,交点(即新的最优解)有极大的概率落在菱形的顶点上,而顶点所在的坐标轴意味着另一个特征对应的权重为0。等高线与圆形边界相切的点(即新的最优解)几乎不可能落在坐标轴上,所以所有权重都会被保留,只是被缩小了。等高线:表示原始的损失函数,同心椭圆的中心是原始模型的最优解(不考虑正则化)。
2025-12-04 21:18:35
213
原创 CoT(Chain-of-Thought)
思维链提示是指将复杂的推理任务(如多步数学题)分解为中间步骤,并在给出最终答案之前解决每个步骤的过程。” 本文的目标是赋予语言模型生成类似思维链的能力:一系列连贯的中间推理步骤,导致问题的最终答案。本文展示如果在少样本提示的示例中提供思维链推理的演示,足够大的语言模型可以生成思维链。具体来说,本文探讨了语言模型执行推理任务的少提示能力,给定一个由三元组组成的提示:⟨输入,思维链,输出⟩。大语言模型中的“方程式提示”是一种利用数学方程式或公式的结构来组织和表达提示内容的提示工程技术。
2025-12-04 15:00:43
235
原创 变分自编码器VAE
当我们从两个“2”的编码点之间采样时,解码出来的可能是一团乱码,无法实现真正的“生成”。:接收一张输入图片(例如,数字“2”的手写图片),不是将其压缩成传统的字节码,而是压缩成两个向量:一个表示均值(μ),一个表示标准差(σ)。潜在空间结构:所有“2”的编码分布聚集在一起,所有“3”的聚集在一起,并且这些分布都彼此重叠,整个空间被有效点填满,形成一个连续、平滑的流形。他看到第1个公式(比如是勾股定理 a²+b²=c²),他需要用一个符合“规则手册”的暗号来表示它,比如 (主题=几何,变量=3,次数=2)。
2025-11-12 23:25:45
948
原创 提示学习思想
提示学习 是一种让预训练的大模型(尤其是语言模型或视觉-语言模型)执行特定任务的方法,其核心思想是:我们不直接调整模型的内部参数(即不进行或仅进行少量微调),而是通过设计一个特定的输入格式或“提示”,来引导模型生成我们期望的输出。提示学习 本质上是一种与参数冻结的大模型交互的新范式。它通过精心设计的输入文本来“唤醒”模型内部已有的知识和能力,使其能够完成五花八门的任务。这种方法极大地降低了大模型的应用门槛和计算成本,是推动AI技术普及和创新的重要驱动力。
2025-10-23 21:59:26
342
原创 Zotero有用的插件
下载链接:https://github.com/windingwind/zotero-pdf-translate/releases/选择translate-for-zotero.xpi。
2025-09-05 17:01:04
231
原创 多模态大模型学习一
在一个很大的数据集(很大,例如imagenet)上跑一个模型(source model),这个模型具有抽取特征的能力;再拿一个自己的数据集在source model上微调(更小的学习率,或更多的层)。Few-Shot学习:在模型训练过程中,如果每个类别只有少量样本(一个或几个),研究人员希望机器学习模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习。但这种方法在大模型上不适用,因为大模型参数量等太大了,我们提供的数据量不够、计算资源不够,所以提出了zero-shot方法。
2025-04-18 15:22:46
433
原创 测试经典题
首先,做软件测试,我会分成四个阶段:分析需求–>设计测试方案–>执行测试–>总结【分析需求】先尝试获取网站的需求文档、技术设计等。这个体验仍然是为了尽可能地明确,网站主要为什么样的用户服务,为用户提供了什么样的帮助,网站每个功能的完整使用流程是怎样的。疑问和障碍如果能够消除,执行测试的效果是最好的。在这个过程中,并非简单的执行方案。API测试是针对应用程序的接口进行测试的实践。接口通常是指两个系统或组件之间的通信点,API测试主要关注的是验证这些接口在数据交换、功能实现和互操作性方面的正确性和可靠性。
2024-08-31 14:43:34
413
原创 计网面经111
3、流量控制:TCP使用滑动窗口协议来控制发送方发送数据的速率,接收方会告诉发送方它的缓冲区大小,发送方会根据接收方的缓冲区大小来控制发送速率,确保接收方不会因为太快而丢失数据。2、序列号和确认号:TCP将每个数据段都分配一个序列号和确认号,序列号用于标识数据段的位置,确认号用于确认已经收到的数据段的位置,这样可以避免数据丢失或乱序。通过以上这些机制,TCP保证了数据的可靠传输,但是也会造成一定的延迟,因为数据包需要等待确认和重传,以及滑动窗口和拥塞控制会限制发送速率。
2024-08-24 23:25:11
468
原创 整理一些面经
学习目标:掌握Python的基础,如元组、字典、列表、集合、迭代器、生成器、闭包、装饰器,了解python的多线程、内存管理、垃圾回收机制!深拷贝(Deep Copy)和浅拷贝(Shallow Copy)是在复制对象或数据结构时所使用的两种不同的拷贝方法,它们之间的区别主要在于拷贝的程度和对原始对象内部结构的影响。浅拷贝创建一个新的对象,但是只复制原始对象的基本数据类型的字段或引用(地址),而不复制引用指向的对象。因此,对新对象所做的修改可能会影响到原始对象,因为它们共享相同的引用。
2024-08-15 21:08:01
411
原创 迈向大规模小目标检测:综述与数据集
本文对小目标检测进行了全面回顾,首先对基于深度学习的小目标检测算法进行了系统性的综述,同时总结和回顾了常用的一些数据集。为了推动该领域的进一步发展,我们构建了第一个专为小目标检测定制的大规模数据集SODA,包含SODA-D和SODA-A。基于这两个数据集,我们对数个代表性算法进行了性能评估和对比。最后我们对小目标检测的预期发展进行展望:高效特征提取网络:如前所述,现有的骨干网络可能不利于提取小目标的高质量特征表示。
2024-08-07 11:17:59
998
原创 Augmentation for small object detection
我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的:(1)只有少数图像包含小物体,(2)即使在包含小物体的每个图像中,小物体也没有足够的出现次数。因此,我们提出对那些包含小物体的图像进行过采样,并通过多次复制粘贴小物体来增强每个图像。
2024-08-07 10:56:54
920
原创 安装mmdetection
根据自己的cuda版本和torch版本修改下面的网址,找到对应的下载并安装。mmdetection版本:2.11.0。python版本:3.7。
2024-06-28 10:15:34
255
原创 Selective Kernel Networks(CVPR-2019)
提出了一种动态选择机制,允许每个神经元根据输入信息的多个尺度自适应调整感受野大小。设计了一种称为选择核(SK)单元的结构块,利用softmax attention 对不同核大小的多个分支进行融合。对这些分支的不同attention产生融合层神经元有效感受野的不同大小。多个SK单元被堆叠成一个称为选择性核的网络SKNets。文章提出了一种非线性方法,从多个内核中聚合信息,实现神经元的自适应RF大小。我们引入了 “选择性内核”(SK)卷积,它由三组运算符组成:Split, Fuse and Select。
2024-06-14 16:33:10
452
原创 1*1卷积核实现升维降维
升维:卷积核shape为[1,1,3,10],即10组[1,1,3]的卷积核,先用其中一组对这张图片卷积得到[32,32,3]的数据,然后将这3为数据相加之后得到[32,32,1],所以10组卷积核能得到[32,32,10]的输出,这样改变了维度。来源:https://zhuanlan.zhihu.com/p/661786236。假设现在有一张图片形状为[32,32,3],32为长和宽,3代表通道数。降维:同理,只需将10改为想要的维度就可以了。
2024-06-14 11:25:01
927
原创 将NWPUD数据集转化为yolo格式
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/Fan1534/article/details/135227192。
2024-05-10 19:49:28
197
原创 Dropout Feature Ranking for Deep Learning Models
深度神经网络( Deep Neural Networks,DNNs )已经开始在生物学和医疗保健领域崭露头角,包括基因组学( Xiong et al . , 2015)、医学影像( Esteva et al , 2017)、EEG ( Rajpurkar et al , 2017)和EHR ( Futoma et al , 2017)。然而,DNNs是黑盒模型,因其不可解释性而臭名昭著。在生物学和医疗保健领域,为了推导出可以通过实验验证的假设,提供关于哪些生物学或临床特征驱动预测的信息是至关重要的。
2024-04-23 23:29:30
1246
原创 Object Detection of Remote Sensing Images
总之,为了解决在密集场景和复杂背景下检测小物体的困难,同时保持相对较高的精度,一种基于多核扩张卷积(MDC)和变压器的新型单阶段物体检测模型MDCT for RSOD 本文提出了块。卷积与扩张卷积的不同之处在于,卷积中的像素是连续的并且集中于卷积的特征。因此,我们的工作重点是密集场景和复杂背景中的小物体,并提出了一种基于多核扩张卷积和变压器的新型单阶段物体检测模型。此外,一阶段目标检测模型中主要的级联方法与上下文无关,容易导致特征信息丢失,在密集场景和复杂背景下难以区分目标和背景特征。
2024-04-17 20:40:21
173
原创 Salient Object Detection in Optical Remote Sensing Images Driven by Transformer
最近开发了基于 Transformer 的目标检测,以应对基于区域提议和基于回归的目标检测所面临的大计算负载和精度牺牲之间的权衡困境,其自注意力机制可以提供具有潜在能力的全局理解 用于推理稀疏异构分布的地理空间对象内的位置关系。最近,开发了基于变压器的目标检测方法[15]、[16]和[17]。随着遥感图像空间分辨率的提高,从对地观测中频繁、准确地识别感兴趣的地理空间目标对于广泛的应用至关重要,例如城市规划中的违法建设[1]、[2]、军事侦察[3]、 以及用于交通控制的飞机和车辆监控[4],[5]。
2024-04-17 19:05:34
207
原创 An Improved Swin Transformer-Based Model for Remote Sensing Object Detection and Instance Segmentati
为了解决这些问题,我们基于 Transformer 和 CNN 的优点改进了 Swin Transformer,设计了局部感知 Swin Transformer (LPSW) 主干来增强网络的局部感知,提高小规模的检测精度。自注意力机制的结构如图2所示。近年来,虽然出现了许多优秀的算法,如路径聚合网络(PANet)[8]、Mask Score R-CNN [9]、Cascade Mask R-CNN [10]以及按位置分割对象(SOLO)[ 11],典型的问题仍然存在,例如分割边缘不准确和全局关系的建立。
2024-04-17 15:51:28
768
原创 Transformer with Transfer CNN for Remote-Sensing-Image Object Detection
所提出的带有数据增强的 T-TRD(T-TRD-DA)在两个广泛使用的数据集(即 NWPU VHR-10 和 DIOR)上进行了测试,实验结果表明所提出的模型提供了有竞争力的结果(即, 与竞争基准方法相比,百倍平均精度为 87.9 和 66.8,最多分别比 NWPU VHR-10 和 DIOR 数据集上的比较方法高出 5.9 和 2.4,这表明基于 Transformer 的方法打开了 RSI 对象检测的新窗口。因此,TRD 可以处理多个尺度的 RSI,并从 RSI 中识别出感兴趣的对象。
2024-04-17 15:26:08
1217
原创 P2FEViT: Plug-and-Play CNN Feature Embedded Hybrid Vision Transformer for Remote Sensing Image Class
设计目标如下:首先,cls_token源自CNN提取的特征,它描述了输入图像的整体特征,而不是某个patch对应的特征,因此不会导致对特定区域的过度学习倾向。回顾 ViT 和 CNN 模型在自然场景图像分类数据集 ImageNet [6] 上的性能,我们发现,如果没有在较大的数据集上进行预训练,ViT 模型往往具有较差的分类性能。其次,旨在整合CNN和ViT的优点,提出了一种将CNN特征嵌入到ViT架构中的新方法,可以使模型同步捕获和融合全局上下文和局部多模态信息,进一步提高ViT的分类能力。
2024-04-17 14:52:15
516
原创 TRS: Transformers for Remote Sensing Scene Classification
在本文中,我们开发了一种基于ResNet50和Transformer架构的遥感Transformer(TRS),它显着提升了遥感场景分类性能并减少了模型对卷积运算的依赖。与传统的“卷积+Transformer”方法不同,我们不是简单地将CNN和Transformer连接起来,而是将Transformers集成到CNN中。我们将 Transformer 应用于遥感场景分类,并提出了一种新颖的“纯 CNN → CNN + Transformer → 纯 Transformer”结构,称为 TRS。
2024-04-17 10:37:25
561
原创 Hyperspectral Image Classification Using Spectral–Spatial Token Enhanced Transformer With Hash-Based
受到基于 Transformer 的模型在计算机视觉各种任务中提取远程特征的能力的启发 [24],[25],[26],[27],前期工作 [28],[29],[ 30]、[31]、[32]、[33]、[34]引入了用于HSI分类的变压器结构,并取得了可喜的结果。[28]和[30]中的工作捕获了远程空间特征,但忽略了短程空间信息的重要性。值得注意的是,合并 CNN 和 Transformer 在计算机视觉领域表现出了良好的性能 [35]、[36]、[37]、[38],但在 HSI 分类中尚未得到深入研究。
2024-04-17 10:31:59
508
1
原创 Advancing Plain Vision Transformer Toward Remote Sensing Foundation Model
在本文中,我们采用具有约 1 亿个参数的普通 ViT,并首次尝试提出适合 RS 任务的大型视觉模型,并研究此类大型模型的性能。为了处理RS图像中的大尺寸和任意方向的物体,我们提出了一种新的旋转可变尺寸窗口注意力来取代变压器中原来的完全注意力,这可以显着减少计算成本和内存占用,同时通过提取学习更好的对象表示 来自生成的不同窗口的丰富上下文。检测任务的实验表明我们的模型优于所有最先进的模型,在 DOTA-V1.0 数据集上实现了 81.24% 的平均精度(mAP)。
2024-04-17 09:52:43
351
原创 交叉熵损失函数
P(x)代表真实分布的概率,Q(x)代表在预测分布中的概率,log代表自然对数。交叉熵越小,表示预测分布和真实分布越接近,性能越好。其中,C表示类别数,y代表真实标签的one-hot编码,p是模型的预测概率。因此模型与真实标签的预测越接近,损失函数越小。交叉熵损失函数还具有平滑性和凸性质,能够保证优化过程的稳定性和收敛性。在机器学习中用于损失函数。在信息论中,用于衡量两个概率分布之间的差异。
2024-03-14 11:15:51
343
1
原创 xlsxwriter.exceptions.FileCreateError: [Errno 13] Permission denied: ‘E:
如果你尝试了各种修改文件权限的方法都还不行的话。有可能是因为你打开了想要修改的文件,关闭就好啦。
2023-11-23 15:30:36
331
数据挖掘adaboost在人脸检测中的运用论文.docx
2023-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅