32、突破文本局限:Transformer在多模态领域的拓展

突破文本局限:Transformer在多模态领域的拓展

1. 自注意力机制的线性化

在处理自注意力机制时,通过先计算 $\sum_{j} \phi (K_j)V_{j}^{T}$ 和 $\sum_{k} \phi (K_k)$,能够有效地将自注意力的空间和时间复杂度进行线性化。这种方法与传统方法的对比可以在相关图中看到,实现这一方法的流行模型有线性Transformer和Performer。这一技术使得Transformer架构在各种任务中能够进一步提升性能。

2. 基于文本训练语言模型的局限性

使用原始文本训练语言模型结合迁移学习,是Transformer语言模型成功的驱动力。原始文本丰富,能实现大模型的自监督训练,而且文本任务如分类和问答很常见,有效解决这些任务能处理大量现实问题。然而,这种方法存在一些局限:
- 人类报告偏差 :文本中事件的频率不能代表其真实频率,仅基于互联网文本训练的模型可能对世界有扭曲的认知。
- 常识缺失 :常识是人类推理的基本能力,但很少被记录下来。基于文本训练的语言模型可能知道很多世界事实,但缺乏基本的常识推理能力。
- 事实存储不可靠 :概率语言模型不能可靠地存储事实,可能生成事实错误的文本。虽然能检测命名实体,但无法直接获取相关信息。
- 模态局限 :语言模型无法连接音频或视觉信号等其他模态,而这些模态可以解决前面提到的一些问题,如通过视频材料解决报告偏差和常识问题,通过访问表格数据获取事实数据。

3. Transformer在视
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值