gunicorn+flask使用问题修复方案

本文探讨了在使用gunicorn和flask部署Huggingface BERT模型时遇到的问题,包括GPU进程未被充分利用和模型响应时间显著增加。通过调整gunicorn配置和工作进程数,以及考虑使用nginx进行负载均衡,以解决GPU分配不均和进程无法重启的问题。此外,文章建议增大index的长度以确保更随机的GPU分配,并考虑切换到异步worker_class以优化延迟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源:torch模型在线推理采用gunicorn+flask部署API服务

问题简述:torch模型——huggingface bert模型,CPU核数96+4个GPU同时使用,启动worker=80左右(80个并发请求),前期能够调用GPU,后期发现有些进程重启后就不再被使用了(top下看不到该pid的进程),因此使用GPU的就不再被使用了,只剩下使用CPU的部分worker,请求方描述,只改变了 java中try请求等待时间加长了。测试也发现postman单个请求响应时间为8min,是以前的至少4倍(之前最多2min,基本上在1min内响应)。

当全部只采用GPU训练(随机选择device),采用kill -9杀死pid时,ps下面还有新的进程产生,这是咋回事?经搜索发现无法杀死gunicorn子进程,它会再次拉起新的进程(这种进程都是死的,根本无法执行,当有请求过来时返回500),因此如果想要每个GPU启动4-5个进程,只能选择

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值