突破文本局限:Transformer在多模态领域的拓展
1. 自注意力机制的线性化
在处理自注意力机制时,通过先计算 $\sum_{j} \phi (K_j)V_{j}^{T}$ 和 $\sum_{k} \phi (K_k)$,能够有效地将自注意力的空间和时间复杂度进行线性化。这种方法与传统方法的对比可以在相关图中看到,实现这一方法的流行模型有线性Transformer和Performer。这一技术使得Transformer架构在各种任务中能够进一步提升性能。
2. 基于文本训练语言模型的局限性
使用原始文本训练语言模型结合迁移学习,是Transformer语言模型成功的驱动力。原始文本丰富,能实现大模型的自监督训练,而且文本任务如分类和问答很常见,有效解决这些任务能处理大量现实问题。然而,这种方法存在一些局限:
- 人类报告偏差 :文本中事件的频率不能代表其真实频率,仅基于互联网文本训练的模型可能对世界有扭曲的认知。
- 常识缺失 :常识是人类推理的基本能力,但很少被记录下来。基于文本训练的语言模型可能知道很多世界事实,但缺乏基本的常识推理能力。
- 事实存储不可靠 :概率语言模型不能可靠地存储事实,可能生成事实错误的文本。虽然能检测命名实体,但无法直接获取相关信息。
- 模态局限 :语言模型无法连接音频或视觉信号等其他模态,而这些模态可以解决前面提到的一些问题,如通过视频材料解决报告偏差和常识问题,通过访问表格数据获取事实数据。
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



