系统监控倒计时：用`Prometheus`与`Grafana`诊断内存泄漏

最新推荐文章于 2025-07-24 22:52:56 发布

itAred

最新推荐文章于 2025-07-24 22:52:56 发布

阅读量372

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Python面试场景题文章标签：监控性能优化 Python 内存管理

本文链接：https://blog.youkuaiyun.com/itAred/article/details/147547892

Python面试场景题专栏收录该内容

595 篇文章

订阅专栏

场景设定：终面倒计时，高压的系统监控与诊断任务

第一轮：面试官提问

面试官：小兰，我们进入终面环节。想象一下，你正在接手一个高并发的FastAPI应用，最近用户反馈系统性能下降，怀疑存在内存泄漏问题。现在，你需要使用Prometheus和Grafana来诊断这个问题。请快速部署监控系统，分析内存使用趋势，并最终定位和解决内存泄漏。

小兰的回答

小兰：哦！这就像给汽车做体检一样！首先，我们需要一个“仪表盘”来显示汽车的状态，这就是Grafana。它会显示内存使用情况，就像油表显示油量一样。然后，我们需要一个“传感器”来实时收集数据，这就是Prometheus。它会不断地读取汽车的“心跳”（内存使用情况），并把数据存起来。

接下来，我们需要给FastAPI应用装上“传感器”。我听说过prometheus-client这个库，就像给汽车装上一个黑匣子，它可以实时报告内存使用情况。然后，我们用Grafana设置一个“报警灯”，比如当内存使用超过80%时就亮起来。

不过，有一件很奇怪的事……我上次用Prometheus的时候，感觉它特别喜欢收集“垃圾数据”。比如，我明明只运行了一个简单的FastAPI应用，但它却告诉我内存使用率是100%，这不科学啊！

正确解析

部署Prometheus和Grafana：

使用docker-compose快速部署：

version: '3.7'
services:
  prometheus:
    image: prom/prometheus:latest
    container_name: prometheus
    ports:
      - 9090:9090
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--web.console.templates=/etc/prometheus/console_templates'
      - '--web.console.libraries=/etc/prometheus/console_libraries'

  grafana:
    image: grafana/grafana:latest
    container_name: grafana
    ports:
      - 3000:3000
    environment:
      - GF_SECURITY_ADMIN_USER=admin
      - GF_SECURITY_ADMIN_PASSWORD=admin

配置prometheus.yml：

scrape_configs:
  - job_name: 'fastapi-app'
    metrics_path: '/metrics'
    static_configs:
      - targets: ['fastapi-app:8000']

在FastAPI中集成prometheus-client：

安装依赖：pip install prometheus-client

配置监控：

from prometheus_client import make_wsgi_app, Gauge
from prometheus_client.exposition import start_http_server
from starlette.middleware.base import BaseHTTPMiddleware
from starlette.requests import Request
from starlette.responses import Response
from starlette.routing import Router
from starlette.types import ASGIApp

class MetricsMiddleware(BaseHTTPMiddleware):
    async def dispatch(self, request: Request, call_next):
        # 在请求处理前后记录内存使用情况
        start = time.time()
        response = await call_next(request)
        end = time.time()
        response.headers["X-Process-Time"] = str(end - start)
        return response

app = Router()
app.add_middleware(MetricsMiddleware)
app.mount("/metrics", make_wsgi_app())

if __name__ == "__main__":
    start_http_server(8001)  # Prometheus metrics endpoint
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

使用Grafana可视化内存使用情况：
- 在Grafana中添加Prometheus数据源。
- 创建仪表盘，添加内存使用率指标：
```
sum by (instance) (process_resident_memory_bytes)
```
- 设置报警规则，当内存使用超过阈值时触发报警。

诊断内存泄漏：

模拟高并发请求，观察内存使用趋势。

使用tracemalloc定位内存泄漏：

import tracemalloc

tracemalloc.start()

def start():
    print(f"Memory usage: {get_memory_usage_mb()}")
    snapshot = tracemalloc.take_snapshot()
    top_stats = snapshot.statistics('lineno')
    print("[ Top 10 ]")
    for stat in top_stats[:10]:
        print(stat)

def get_memory_usage_mb():
    current, peak = tracemalloc.get_traced_memory()
    return f"{current / 10**6:.1f}MB current, {peak / 10**6:.1f}MB peak"

第二轮：分析内存泄漏

面试官：好的，现在假设你已经部署好了Prometheus和Grafana，并且观察到内存使用持续上升，没有释放的迹象。请分析可能的内存泄漏原因，并提出解决方案。

小兰：嗯……这就像我养的宠物狗，吃完饭后它不消化，一直“囤积”食物。我怀疑是FastAPI应用里有些“懒惰”的对象没有被清理掉。比如，我上次写代码的时候，忘记清理一些全局变量，它们就像“僵尸狗”一样一直在占着内存。

还有一个可能是asyncio的事件循环出了问题。我听说asyncio有时候会有“幽灵任务”，这些任务虽然完成了，但它们的资源没有被释放。就好像我煮方便面的时候，忘记关火，电还在一直耗着。

正确解析

可能的原因：
- 全局变量未清理：全局变量在应用生命周期中一直存在，占用内存。
- 缓存未清除：FastAPI的缓存机制（如Cache-Control）可能导致数据积累。
- 异步任务未取消：asyncio任务未正确取消，导致资源泄露。
- 数据库连接未关闭：未关闭的数据库连接可能导致内存累积。
解决方案：
- 清理全局变量：避免使用全局变量，改为函数内部局部变量，或使用依赖注入（如FastAPI的Depends）。
- 优化缓存策略：设置缓存过期时间，或使用Redis作为外部缓存。
- 取消异步任务：在FastAPI的依赖和生命周期中正确处理异步任务，使用asyncio.create_task时务必调用.cancel()。
- 关闭数据库连接：确保数据库连接在使用后关闭，或使用asyncpg等库的连接池管理。

第三轮：代码优化

面试官：现在请展示如何通过代码优化解决内存泄漏问题。假设问题是由于异步任务未正确取消导致的。

小兰：哈哈！这就好比我以前煮方便面的时候，忘记关火。这次我决定在每次煮完面后，检查一下燃气灶是否还开着。在FastAPI里，我将在每个异步任务完成后，手动调用.cancel()方法，就像关掉燃气灶一样。

不过，我觉得还有一个更“懒惰”的地方，就是全局的asyncio事件循环。我听说uvloop可以优化性能，但我更倾向于给事件循环装个“定时器”，每隔一段时间就重启一下，就像给汽车做个保养一样。

正确解析

优化异步任务：

在FastAPI的依赖中正确处理异步任务：

from contextlib import asynccontextmanager
from fastapi import FastAPI

app = FastAPI()

@asynccontextmanager
async def lifespan(app: FastAPI):
    try:
        print("Application starting up...")
        yield
    finally:
        print("Cleaning up...")
        # 取消所有未完成的任务
        for task in asyncio.all_tasks():
            task.cancel()
            try:
                await task
            except asyncio.CancelledError:
                pass

app.add_event_handler("startup", lifespan)

使用uvloop优化事件循环：
- 安装依赖：pip install uvloop
- 配置uvloop：
```
import uvloop
asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
```

第四轮：总结与反思

面试官：小兰，你的比喻很有趣，但解决问题的思路还需要更加严谨。在实际生产环境中，内存泄漏问题可能会导致系统崩溃，因此需要格外小心。建议你多阅读Prometheus和Grafana的相关文档，并深入理解FastAPI的异步机制。

小兰：啊？这就结束了？我还以为您会问我如何用Prometheus监控“铲屎官”和“女友”的幸福指数呢！不过，既然提到了严谨性，我确实需要多看看《Python异步编程》和FastAPI的官方文档。谢谢您的指导！

（面试官扶额，结束面试）

面试结束

面试官：今天的面试就到这里了。小兰，你的创意虽然很丰富，但技术细节还需要加强。建议你多练习实际项目中的问题解决能力，尤其是监控和性能优化方面。祝你面试顺利！

小兰：谢谢老师！我一定会继续努力的！（匆忙离开面试室，心里想着下次如何用代码煮出“完美泡面”）