
Transformer系列
文章平均质量分 65
分享Transformer的最新研究进展。
leo0308
AI攻城狮
展开
-
修改HuggingFace模型默认缓存路径
huggingface模型的默认缓存路径是通常修改为自己的路径会更为方便。原创 2025-03-18 19:57:58 · 526 阅读 · 0 评论 -
无需tokenizer--Byte Latent Transformer: Patches Scale Better Than Tokens
https://mp.weixin.qq.com/s/7ju-PjPZVPrBLQ1qFnFoKw原创 2024-12-17 12:00:30 · 185 阅读 · 0 评论 -
深入理解Transformer中的位置编码
由于注意力的作用机制,不论输入序列的顺序如何,输出结果都是一样的。也就是丢失了位置信息。但是对于语言模型, 我们都知道顺序是很重要的, 所以需要对输入序列额外注入位置信息。从图上可以看出, 序列位置与位置编码有个近似的线性关系, 同时还有一定的周期特性,因此位置编码一定程度上反应了序列中的位置信息。Transformer 论文中采用了简单的相对位置编码, 用sin 和cos函数表示序列中不同位置的信息。横轴表示嵌入维度, 纵轴是token在序列中的位置, 如输入是一个长度是32的序列。原创 2024-11-03 22:01:47 · 591 阅读 · 0 评论 -
自然语言处理的分词与词嵌入
NLP中分词, 词嵌入详解。原创 2023-07-05 23:35:31 · 840 阅读 · 0 评论 -
Transformer模型深入理解
1 模型总览整个模型的结构是标准的Encoder-Decoder结构, Encoder部分堆叠6个相同的encoder层, Decoder部分同样堆叠6个相同的decoder层。继续深入模型的内部, 每个encoder层包含2部分: 一个自注意力层和一个前馈层。每个decoer层包含3部分: 一个自注意力层, 一个交叉注意力层和一个前馈层。再继续深入,网络还采用了残差结构, 每个自注意力层和前馈层之后都进行了残差连接, 并且使用了归一化。2 Attention机制理解3 实例解析4 参考原创 2021-11-21 20:13:41 · 2032 阅读 · 3 评论 -
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读
1 介绍Transformer网络取得了非常大的成功并具有广泛的应用。 然而由于它巨大的计算代价,使得部署到手机等端侧设备面临巨大的挑战。在评估Transformer网络的效率时有两个常见的陷进: 1) FLOPs不能反映真实的时延; 2)不同硬件偏好不同的Transformer结构。上图表明, 在一个硬件上表现好的网络在另一个硬件上表现反而不好。上图表明: 1)FLOPs在lateny并不完全是线性关系; 2)不用硬件的影响因素不同。受NAS成功的启发, 我们提出了搜索硬件感知的Transf原创 2021-12-14 23:52:19 · 3276 阅读 · 0 评论 -
Dynamic Transformer for Efficient Machine Translation on Embedded Devices论文解读
0 引言这篇文章是基于HAT做的, 主要解决的是嵌入式设备运行时的资源状态和搜索网络时不一致的问题, 在运行时还会动态微调网络,这就是标题中Dynamic的体现。 关于HAT可参考我的另一篇博客HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读1 动机传统的网络搜索都是静态的, 也就是说对于一个特定的硬件设备, 我们会搜索一个在这个设备上最优的网络。 但是嵌入式设备上情况要复杂一些, 比如设备原创 2022-04-02 20:27:06 · 307 阅读 · 0 评论 -
Transformer最新综述
0 前言Transformer在人工智能领域取得了非常的成功, 如NLP, CV, 音频处理等等。 针对Transformer的改进工作也层出不穷, 这些Transformer的变体大概可以分为3类:模型结构的优化, 预训练, 以及Transformer的应用。1 模型结构的优化1.1 模块级的优化1.1.1 注意力机制1.1.1.1 稀疏Attention1.1.1.2 线性Attention1.1.1.3 查询原型和内存压缩1.1.1.4 低秩自注意力1.1.1.5 先验的注意力1原创 2021-12-17 20:29:46 · 5125 阅读 · 0 评论 -
Vision Transformer综述
0 前言Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。1 典型工作1.1 backbone原创 2021-12-19 22:31:24 · 711 阅读 · 0 评论 -
共享权重的Transformer网络
论文:[Lessons on Parameter Sharing across Layers in Transformers](Lessons on Parameter Sharing across Layers in Transformers)代码:https://github.com/takase/share_layer_params1 介绍这篇文章提出了三种Transformer网络权重共享的方式, 降低了参数量。 在同参数量的情况下可以达到比原始Transformer网络更高的精度。假设参原创 2022-03-29 16:54:32 · 2692 阅读 · 0 评论 -
深层Transformer的一些工作
0 引言自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。本文分享几篇通过不同方式加深Transformer网络深度原创 2022-04-01 20:06:22 · 633 阅读 · 0 评论