应用Transformer进行法律和金融文档的AI文本摘要
1. T5模型架构概述
T5模型具有对称结构,在各层中保持着特定的操作模式。模型在注意力子层对1024个特征进行操作,前馈网络子层的内部计算则针对4096个特征,最终输出1024个特征。以下是部分模型结构示例:
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
(1): T5LayerFF(
(DenseReluDense): T5DenseReluDense(
(wi): Linear(in_features=1024, out_features=4096,
bias=False)
(wo): Linear(in_features=4096, out_features=1024,
bias=False)
(dropout): Dropout(p=0.1, inplace=False)
)
(layer_norm): T5LayerNorm()
(dropout): Dropout(p=0.1, inplace=False)
)
)
你可以通过以下代码查看模型的不同部分:
if display_architecture==True:
print(model.encoder)
if display_architecture==True:
print(model.decoder)
if display_architecture==True:
print(mod
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



