32、突破文本局限：Transformer在多模态领域的拓展

吃瓜不吐籽595

于 2025-09-02 06:39:49 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：解码Transformer：从理论到应用文章标签： Transformer 多模态学习自注意力机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oauth7security/article/details/151097053

解码Transformer：从理论到应用专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

突破文本局限：Transformer在多模态领域的拓展

1. 自注意力机制的线性化

在处理自注意力机制时，通过先计算 $\sum_{j} \phi (K_j)V_{j}^{T}$ 和 $\sum_{k} \phi (K_k)$，能够有效地将自注意力的空间和时间复杂度进行线性化。这种方法与传统方法的对比可以在相关图中看到，实现这一方法的流行模型有线性Transformer和Performer。这一技术使得Transformer架构在各种任务中能够进一步提升性能。

2. 基于文本训练语言模型的局限性

使用原始文本训练语言模型结合迁移学习，是Transformer语言模型成功的驱动力。原始文本丰富，能实现大模型的自监督训练，而且文本任务如分类和问答很常见，有效解决这些任务能处理大量现实问题。然而，这种方法存在一些局限：
- 人类报告偏差 ：文本中事件的频率不能代表其真实频率，仅基于互联网文本训练的模型可能对世界有扭曲的认知。
- 常识缺失 ：常识是人类推理的基本能力，但很少被记录下来。基于文本训练的语言模型可能知道很多世界事实，但缺乏基本的常识推理能力。
- 事实存储不可靠 ：概率语言模型不能可靠地存储事实，可能生成事实错误的文本。虽然能检测命名实体，但无法直接获取相关信息。
- 模态局限 ：语言模型无法连接音频或视觉信号等其他模态，而这些模态可以解决前面提到的一些问题，如通过视频材料解决报告偏差和常识问题，通过访问表格数据获取事实数据。

3. Transformer在视

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。