pytorch-crf的不收敛的巨坑

部署运行你感兴趣的模型镜像

pytorch-crf文档地址:

https://pytorch-crf.readthedocs.io/en/stable/

git地址:

https://github.com/kmkurn/pytorch-crf

环境参数:

OS:Ubuntu 24.04.3 LTS
Python 3.12.11
NVIDIA-SMI 575.64.05
CUDA Version: 12.9 
torch     2.8.0+cu129
ytorch-crf  0.7.2

实体抽取使用BERT+CRF,使用ytorch-crf实现CRF,

出现的现象是:

loss值很飘逸,nan,inf……………………偶尔会出现收敛值。

问题的原因:

# 此处代码取自pytorch-crf源码
# 地址:https://github.com/kmkurn/pytorch-crf/blob/master/torchcrf/__init__.py
# 38至58行
    def __init__(self, num_tags: int, batch_first: bool = False) -> None:
        if num_tags <= 0:
            raise ValueError(f'invalid number of tags: {num_tags}')
        super().__init__()
        self.num_tags = num_tags
        self.batch_first = batch_first
        self.start_transitions = nn.Parameter(torch.empty(num_tags))
        self.end_transitions = nn.Parameter(torch.empty(num_tags))
        self.transitions = nn.Parameter(torch.empty(num_tags, num_tags))

        self.reset_parameters()

    def reset_parameters(self) -> None:
        """Initialize the transition parameters.

        The parameters will be initialized randomly from a uniform distribution
        between -0.1 and 0.1.
        """
        nn.init.uniform_(self.start_transitions, -0.1, 0.1)
        nn.init.uniform_(self.end_transitions, -0.1, 0.1)
        nn.init.uniform_(self.transitions, -0.1, 0.1)

在初始化时,调用reset_parameters限制参数值域。

但是,实际情况是,运行了,不过没有生效。

解决方法:

model = BertCrfForNer.from_pretrained(pretrain_path, config=config)
model.crf.reset_parameters()
model.to(device)

在把model移动至显卡前,调用一下限制参数值域

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

natide

觉得有帮助就好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值