[bug][未解决] transformer encoder对不同的输入，输出全部一样

最新推荐文章于 2025-12-22 22:50:50 发布

原创最新推荐文章于 2025-12-22 22:50:50 发布 · 2k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #bug #深度学习

代码笔记专栏收录该内容

14 篇文章

订阅专栏

本文探讨了在蛋白质功能多标签分类中，使用Transformer编码器可能遇到的过拟合问题，以及尝试MLP改进后的现象。作者质疑过拟合理论并提及层数对输出一致性的影响。

部署运行你感兴趣的模型镜像

多标签分类问题，输入是蛋白质特征，输出是蛋白质的功能（即，一个由标签组成的DAG）

motivation：输入是一个有multi-hot向量组成的张量，multi-hot的每一位代表着某一种特征。

考虑到不同特征之间可能存在交互作用，进而影响到最后的结果，首先用一个权重矩阵将输入嵌入之后，使用transformer的encoder进行特征的提取（特征之间没有先后关系，因而没有加入位置信息）。

然后问题出现了：不管输入是什么，输出的结果都是一样的，或者十分接近。

将transformer改成mlp，效果反倒好了不少，而且也不存在输出一样的问题。

一个假设是，transformer的层数过多导致了过拟合，使得模型错误地拟合到了根据出现频率进行预测。然后减小了encoder layer的层数，结果很奇怪：一层的时候基本不存在这个问题，一旦层数到了2，输出一致的问题就很严重。。。感觉这个假设很牵强啊

暂时没有其他想法了，只能先放下了。希望大佬解答。

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成

Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列，包括基础变体、指导变体和推理变体，由字节团队开源

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。