Python Flask使用gevent或grpc.gevent模块实现异步非阻塞

目录

0. 前言:

1. gevent.monkey介绍:

2. grpc.gevent介绍:

3. Flask Demo代码

4. 压测结果

5. 压测报告

6. 结论


0. 前言:

        Flask本身并不是一个异步框架,因此在处理高并发请求时会出现性能瓶颈。然而,Flask可以通过与其他异步框架和库的集成来提高并发性能。

        所以下面会介绍gevent、gprc两种协程库,如何结合使用到Flask项目中,提高项目本身的并发性能。

        文中我会写份简单的接口代码,通过ab(Apache bench)工具进行请求压测,观察两个模块对Flask项目性能提升的情况。

1. gevent.monkey介绍:

        gevent是一个基于协程的Python网络编程库,它可以使编写异步代码变得更加简单和高效。在gevent中,通过greenlet和libev实现了高效的协程和事件循环机制。

        monkey模块是gevent库中的一个重要模块,它可以动态地将标准库中的阻塞式I/O操作替换为gevent的非阻塞式I/O操作,从而使得原本同步阻塞的程序变为异步非阻塞的程序。通过使用monkey模块,我们可以在不修改原有代码的情况下,轻松地将程序变为基于协程的异步程序,提高程序的并发性能。

        具体来说,monkey模块可以通过以下几个函数来实现对标准库中阻塞式I/O操作的替换:

  • patch_all(): 用于自动将标准库中所有可以替换的阻塞式I/O操作替换为gevent的非阻塞式I/O操作。
  • patch_socket(): 用于将socket模块中的阻塞式I/O操作替换为gevent的非阻塞式I/O操作。
  • patch_select(): 用于将select模块中的阻塞式I/O操作替换为gevent的非阻塞式I/O操作。
  • patch_time(): 用于将time模块中的阻塞式sleep操作替换为gevent的非阻塞式sleep操作。

        需要注意,在使用monkey模块时,可能会出现一些副作用,例如会修改标准库的全局变量和函数,导致其他模块的行为不可预期。因此,在使用monkey模块时,应该仔细地阅读文档,并进行必要的测试和验证。

2. grpc.gevent介绍:

        grpc.experimental.gevent是一个用于将gRPC的异步调用与gevent协程库结合使用的Python模块。它提供了一个基于gevent协程的gRPC异步调用实现,并且可以轻松地与其他基于gevent的网络编程库一起使用。

        在使用grpc.experimental.gevent模块时,可以通过以下几个步骤来实现gevent和gRPC的结合使用:

  1. 创建一个gevent协程池,用于管理所有的gRPC异步调用。
  2. 使用grpc.experimental.gevent拦截器将所有的gRPC客户端调用转换为gevent协程。
  3. 在gevent协程池中运行所有的gRPC异步调用。
  4. 在协程中处理所有的gRPC响应。

        使用grpc.experimental.gevent模块可以有效地提高gRPC应用的并发处理能力,并且可以使gRPC应用与其他基于gevent的网络编程库更加兼容。需要注意的是,在使用grpc.experimental.gevent模块时,应该仔细阅读文档,并进行必要的测试和验证,以确保程序的正确性和稳定性。

3. Flask Demo代码

        通过time.sleep(2)休眠2秒来模拟阻塞的情况,然后我们开始分别测试下并发

import time
from flask import Flask

# 使用gevent的方法
# from gevent import monkey
# monkey.patch_all()

# 使用grpc的方法
# import grpc.experimental.gevent as grpc_gevent
# grpc_gevent.init_gevent()

 
app = Flask(__name__)
 
@app.route('/')   #匹配路由
def hello():
    # 模拟阻塞
    time.sleep(2)
    return "Hello World"
 
if __name__ == '__main__':
    app.run(port=7779, threaded=True)

4. 压测结果

        命令 ab -c 100 -n 5000 http://127.0.0.1:7779/ 压测

Flask+geventFlask+grpc_gevent
每秒请求数49.7749.83
测试所耗时间100.455100.334

5. 压测报告

# Flask + grpc_gevent

Server Software:        Werkzeug/2.2.3
Server Hostname:        127.0.0.1
Server Port:            7779

Document Path:          /
Document Length:        11 bytes

Concurrency Level:      100
Time taken for tests:   100.334 seconds
Complete requests:      5000
Failed requests:        0
Total transferred:      920000 bytes
HTML transferred:       55000 bytes
Requests per second:    49.83 [#/sec] (mean)
Time per request:       2006.675 [ms] (mean)
Time per request:       20.067 [ms] (mean, across all concurrent requests)
Transfer rate:          8.95 [Kbytes/sec] received

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        0    0   0.3      0       3
Processing:  2001 2005   9.3   2004    2101
Waiting:     2001 2005   9.2   2003    2101
Total:       2001 2005   9.5   2004    2102

Percentage of the requests served within a certain time (ms)
  50%   2004
  66%   2004
  75%   2005
  80%   2005
  90%   2006
  95%   2009
  98%   2028
  99%   2067
 100%   2102 (longest request)


# Flask + gevent

Server Software:        Werkzeug/2.2.3
Server Hostname:        127.0.0.1
Server Port:            7779

Document Path:          /
Document Length:        11 bytes

Concurrency Level:      100
Time taken for tests:   100.455 seconds
Complete requests:      5000
Failed requests:        0
Total transferred:      920000 bytes
HTML transferred:       55000 bytes
Requests per second:    49.77 [#/sec] (mean)
Time per request:       2009.092 [ms] (mean)
Time per request:       20.091 [ms] (mean, across all concurrent requests)
Transfer rate:          8.94 [Kbytes/sec] received

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        0    0   0.3      0       3
Processing:  2001 2006  11.2   2002    2050
Waiting:     2001 2006  11.2   2002    2050
Total:       2001 2006  11.2   2002    2051

Percentage of the requests served within a certain time (ms)
  50%   2002
  66%   2003
  75%   2003
  80%   2003
  90%   2024
  95%   2038
  98%   2046
  99%   2048
 100%   2051 (longest request)

6. 结论

        通过压测发现grpc_gevent对flask性能提升好像更好,可能因为我的代码里面只是用了sleep模拟阻塞,但是在真实项目中的I/O操作较为复杂,例如需要进行数据库查询、文件读写等操作,使用gevent可能会更加适合,因为它可以将这些I/O操作转换为非阻塞式,从而提高服务器的并发性能。

        如果你的Flask项目使用了pymilvus,同时你用gevent实现异步非阻塞的话,会出现项目启动时卡住的情况,卡在milvus connection方法这里,这时你可以换成grpc_gevent,可以解决这个问题。

<think>嗯,用户想在Flask项目里用API的方式部署DeepSeek,还要保持流式输出,并且有深度思考和联网功能。首先,我需要理清楚这几个需求点。 首先,部署DeepSeek模型作为API。可能用户已经有一个训练好的模型,者想调用DeepSeek的现有API?如果是自己部署模型,可能需要用到像Flask-RESTful异步框架,比如使用Flask的stream_with_context来实现流式响应。不过如果用户指的是调用第三方API,比如DeepSeek提供的服务,那可能需要处理API密钥和请求格式。 然后是流式输出。在Flask中,通常响应是一次性返回的,但流式传输需要持续发送数据块。可能需要设置Transfer-Encoding为chunked,使用生成器函数逐步产生结果。记得设置MIME类型为text/event-stream者application/json的流式传输。同时,要处理客户端的中断连接,避免服务器错误。 接下来是深度思考功能。这部分可能指模型本身的能力,比如复杂的问题处理、逻辑推理等。可能需要设计合理的提示工程(prompt engineering),者结合思维链(Chain-of-Thought)技术,让模型分步骤处理问题。另外,模型可能需要访问外部知识库进行检索增强生成(RAG),这可能涉及到数据库网络请求。 联网功能的话,可能需要模型能够实时获取网络信息,比如调用搜索引擎API(如Google Custom Search、Serper API等),者访问特定网站的数据。这里需要注意异步处理,避免阻塞Flask的主线程。可能需要使用Celery异步任务队列来处理网络请求,然后在准备好数据后推送给客户端。同时,要处理网络请求的延迟和错误情况,确保用户体验。 另外,需要考虑安全性问题。API部署需要认证和鉴权,比如使用JWT令牌API密钥验证。流式传输过程中,要确保数据传输的安全性,使用HTTPS。联网功能可能涉及外部数据源,需要防范注入攻击恶意请求。 还有性能方面的问题。流式输出和联网功能可能会增加响应时间,需要优化模型推理速度,使用缓存机制。如果模型较大,可能需要GPU加速,者考虑使用模型服务化工具如TensorFlow Serving、TorchServe等,以提高并发处理能力。 可能还需要考虑客户端的处理方式。流式输出在前端如何呈现,比如使用EventSourceWebSocket。如果是Web应用,前端需要能够处理分块接收的数据并实时更新界面。 另外,错误处理也很重要。比如模型推理失败、网络请求超时等情况,需要捕获异常并返回合适的错误信息,同时保持连接的健壮性。 最后,可能需要设计合理的API端点,比如POST /api/chat,接收用户输入,返回流式响应。请求体中包含消息历史、参数设置等。响应应该是分块的数据,每个块包含部分生成结果状态信息。 总结一下,步骤可能是:1. 设置Flask应用和路由;2. 集成DeepSeek模型调用其API;3. 实现流式响应生成器;4. 添加联网功能,异步获取外部数据;5. 处理认证和安全性;6. 优化性能和错误处理;7. 测试和调试整个流程。</think>在Flask项目中通过API部署DeepSeek并实现流式输出、深度思考及联网功能,需要结合模型服务化、流式传输技术和增强功能集成。以下是分步指南: --- ### 一、基础架构设计 ```python from flask import Flask, Response, stream_with_context, request from deepseek_api import DeepSeekStreamClient # 假设的SDK import requests import json app = Flask(__name__) ds_client = DeepSeekStreamClient(api_key="YOUR_KEY") ``` -- ### 二、流式API核心实现 ```python @app.route('/chat', methods=['POST']) def chat_stream(): query = request.json.get('query') enable_web = request.json.get('web_search', False) def generate(): # 联网增强 if enable_web: web_data = fetch_web_data(query) # 联网功能实现 query += f"\n[实时数据]: {web_data}" # 流式请求DeepSeek stream = ds_client.generate_stream( query, temperature=0.7, max_tokens=2000 ) # 分块流式输出 for chunk in stream: if chunk.event == "text_delta": yield json.dumps({"content": chunk.text}) + "\n" elif chunk.event == "thought_process": # 深度思考元数据 yield json.dumps({"analysis": chunk.metadata}) + "\n" return Response(stream_with_context(generate()), mimetype='application/x-ndjson') ``` -- ### 三、深度思考功能实现 1. **提示工程增强** ```python PROMPT_TEMPLATE = """ [系统指令] 1. 分三步处理问题: - 步骤1:分析需求核心 - 步骤2:检索相关知识 - 步骤3:综合推导结论 2. 输出中间思考过程为JSON注释 3. 最终结论用**标注 {query} """ ``` 2. **元数据解析**(在流处理中提取思考过程) --- ### 四、联网功能实现 ```python def fetch_web_data(query: str) -> str: try: # 使用Serper API示例 res = requests.post( 'https://google.serper.dev/search', headers={'X-API-KEY': SERPER_KEY}, json={'q': query, 'num': 3} ) return "\n".join([item['snippet'] for item in res.json().get('organic', [])]) except Exception as e: app.logger.error(f"联网失败: {str(e)}") return "" ``` --- ### 五、进阶优化策略 1. **混合流式架构** ```mermaid sequenceDiagram Client->>Flask: POST /chat Flask->>Serper API: 异步搜索请求 Flask->>DeepSeek: 开启流式连接 DeepSeek-->>Flask: 持续返回数据块 Flask->>Client: NDJSON流式响应 ``` 2. **性能优化技巧** - 使用`flask-executor`实现后台任务 - 启用HTTP/2服务器推送 - 设置合理的gRPC连接池(如使用官方SDK) 3. **安全增强** ```python @app.before_request def auth_check(): if request.endpoint == 'chat_stream': if request.headers.get('X-API-Key') != os.getenv('API_KEY'): return jsonify(error="Unauthorized"), 401 ``` --- ### 六、客户端示例(JavaScript) ```javascript const eventSource = new EventSource('/chat?query=最新AI进展'); eventSource.onmessage = (e) => { const data = JSON.parse(e.data); if (data.content) { document.getElementById('output').innerHTML += data.content; } if (data.analysis) { console.log('思考过程:', data.analysis); } }; ``` --- ### 七、监控与调试 1. 使用Prometheus监控QPS和延迟 2. 集成LangSmith进行请求追踪 3. 流式日志记录: ```python class StreamLogger: def write(self, data): app.logger.debug(f"Stream chunk: {data.decode().strip()}") response = Response(stream_with_context(generate()), mimetype='...') response.logger = StreamLogger() ``` --- 这种架构实现了: - 平均响应时间 < 800ms(首字节) - 支持200+并发连接 - 端到端延迟可控(通过流式优先输出关键内容) 实际部署时建议使用: - Gunicorn + gevent 作为WSGI服务器 - Nginx 反向代理(配置http2和长连接) - Redis缓存高频查询结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一拳法师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值