论文阅读
文章平均质量分 95
好喜欢上学
hbu保研buaa&zgca,在这里记录日常学习笔记~谢谢每一个对内容感兴趣的uu的点赞收藏和关注,会看私信。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION》-模型量化
校准集是从原始训练/验证数据中挑出的一小部分数据。原创 2025-08-23 02:22:23 · 969 阅读 · 0 评论 -
《Masked Autoencoders Are Scalable Vision Learners》---CV版的BERT
核心思想:随机挡住图片的大部分区域,然后让模型根据剩下的碎片猜出被挡住的部分【来源于BERT带掩码的语言模型,patch===》image的一个块,预测的是这一个块的所有像素】核心设计一:非对称的encoder-decoder架构,MAE的编码器只编码可见的patches,被masked的块不编码,而解码器需要重构所有块。encoder只作用在可见的patch上,被mask掉的patch不做计算,可节约计算,提升训练速度decoder用于重构被mask掉的像素。原创 2025-04-28 20:54:52 · 1126 阅读 · 0 评论 -
《A Gentle Introduction to Graph Neural Networks》-GNN的综述性论文
首先建立一个图。图表示的是一系列实体(节点)之间的关系(边)。图的顶点/边表示的信息叫做attributeGNN是一个对图上所有的属性,包括顶点、边、全局的上下文进行的一个可以优化的变换,这个变换能够保持住图的对称性信息的【把顶点进行另外一个排序之后整个结果不会变】,GNNs是“graph-in, graph-out”(即进出模型都是graph的数据结构),他会对节点、边的信息进行变换,但是图连接性【每条边到底连接的是哪两个点】是不变的。【只改变属性不改变结构】原创 2025-03-12 22:24:32 · 1027 阅读 · 0 评论 -
《Generative Adversarial Nets》-GAN:生成对抗网络,一场伪造者与鉴定师的终极博弈
而是通过模型学习数据分布。计算更高效,尤其在。原创 2025-03-09 11:56:34 · 1541 阅读 · 0 评论 -
《Bert:Pre-training of Deep BidirectionalTransformers for LanguageUnderstanding》Bert:NLP领域的里程碑
有监督学习中,训练数据由一对一的输入和标签组成。模型学习从输入数据到标签的映射关系,目标是通过已知的输入输出对来预测新数据的标签。无监督学习没有标签数据,模型需要从输入数据中自动发现结构或模式。训练过程中,模型并不依赖于任何标签,目的是从数据中找到潜在的规律。自监督学习是无监督学习中的一种方法自监督学习是无监督学习的一个特殊形式,它通过从未标注数据中自动生成标签来训练模型。在训练过程中,模型通过某些预设任务(例如掩码预测)自我生成训练信号,并且不依赖外部的人工标签。BERT 是自监督学习。原创 2025-03-03 07:53:09 · 1491 阅读 · 0 评论 -
《Swin Transformer Hierarchical Vision Transformer using Shifted Windows》-VIT模型的进阶:革新视觉任务的通用主干网络
一、核心问题与创新动机1.1 为什么 Transformer 从语言领域(如自然语言处理)扩展到视觉领域(如图像处理)会遇到挑战?1.2 Swin 的优势二、完整流程2.1 Patch Partition:(和VIT没什么太大区别)2. 2 Stage 1:Linear Embedding +Swin Transformer Block 2. 3 Stage 2:Patch Merging +Swin Transformer Block 2. 4 Stage 3:Patch Merging +Swin Tr原创 2025-02-27 18:30:42 · 1092 阅读 · 0 评论 -
《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》VIT:将transformer应用到视觉领域
图像→序列:通过分块与展平,将二维图像转为一维序列 token。自注意力机制:让每个图像块与其他块建立全局依赖关系。位置编码:补充 Transformer 缺乏的位置感知能力。:为整个图像提供全局表征。原创 2025-02-26 14:52:55 · 1205 阅读 · 0 评论 -
《Attention is all you Need》-transformer模型
为什么用layer: 样本长度序列变化比较大的时候,每次算的均值方差抖动比较大。而预测时候用的全局的均值方差,效果不是很好。而layer是对每个样本来说的,不存在全局,比较稳定。原创 2025-01-15 18:07:13 · 1021 阅读 · 0 评论
分享