UniRel项目中Bert模型不支持scaled_dot_product_attention的解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07685/article/details/148466470

UniRel项目中Bert模型不支持scaled_dot_product_attention的解决方案

在运行UniRel项目时，用户可能会遇到一个常见的技术问题：BertModel不支持torch.nn.functional.scaled_dot_product_attention。这个问题通常出现在较新版本的transformers库中，因为新版本对注意力机制进行了优化和重构。

UniRel项目是一个基于Bert模型的关系抽取框架。在最新版本的transformers库中，HuggingFace引入了scaled_dot_product_attention作为默认的注意力实现方式，以提高计算效率。然而，BertModel架构尚未完全适配这种新的注意力机制实现。

当用户尝试运行项目时，控制台会抛出以下错误信息：

ValueError: BertModel does not support an attention implementation through torch.nn.functional.scaled_dot_product_attention yet.

错误提示建议用户要么请求对该架构的支持，要么临时使用'attn_implementation="eager"'参数作为变通方案。

针对这个问题，有两种可行的解决方案：

强制使用eager模式：修改model_transformer.py文件，在BertModel.from_pretrained()调用中添加参数：
```
self.bert = BertModel.from_pretrained(model_dir, config=config, attn_implementation='eager')
```
这种方法简单直接，可以快速解决问题，但可能无法利用最新的优化特性。
使用兼容的transformers版本：根据项目作者的说明，UniRel最初是在transformers 4.12.5版本上开发和测试的。这个版本对BertModel进行了定制修改以输出attention score。降级到该版本可以确保完全兼容：
```
pip install transformers==4.12.5
```