Scrapy分布式爬虫数据统计监控方案(Helm安装Prometheus+Grafana)

本文介绍了如何将Scrapy分布式爬虫的数据对接到Prometheus进行统计监控,通过Helm安装Prometheus和Grafana,设置Exporter收集数据,配置Grafana可视化面板,并探讨了初步的告警设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:scrapy有一个组件Stats Callection,是一种scrapy的Extension扩展组件。如果分布式爬取将会各自统计爬取数据,如何实现分布式统计信息共享呢?参考scrapy_redis设置只需要在scrapy爬虫项目里面的settings.py中添加:STATS_CLASS=“scrapy_redis.stats.RedisStatsCollector”。

准备工作
能将scrapy爬虫项目在kubernetes上运行起来
另外kubernetes安装了Helm
实现Prometheus+Grafana监控爬虫,需要做到三步:

  1. 生成scrapy的Exporter,用于收集统计数据
  2. 将Grafana与Prometheus对接起来,构建可视化面板
  3. 配置告警

将Scrapy数据对接到Prometheus

如何实现:借助于Scrapy的Extension和开源工具:prometheus_client,传入一些参数构造不同的指标爬取数据,生成Exporter格式内容;
并且借助于开源库:GerapyPrometheus-Exporter来实现Exporter

安装开源库:

pip3 install gerapy-prometheus-exporter

安装完成后需在settings.py配置并启用

EXTENSIONS = {
            'gerapy_prometheus_exporter.extension.WebService':500,
        }

查看Exporter:

  • 将项目部署到Kubernetes上

通过将Service将9410端口暴露
设置deployment.yaml和service.yaml文件
具体设置文件不详细说明,可以网上查询部署配置

  • 查看web服务是否成功
kubectl port-forward svc/<service-name> 9410:9410 -n <namespase>

重新本地打开查看Exporter:http://localhost:9410/metrics

上面HTTP服务页面配置到Prometheus里面抓取储存

由于项目部署到kubernetes上,所以Prometheus也要部署到kubernetes上

使用Helm部署Prometheus+Grafana

安装Helm

安装前需对应版本,官网查看:https://helm.sh/zh/docs/topics/version_skew/

  • 下载安装包
其他版本安装包地址:https://github.com/helm/helm/releases
wget https://get.helm.sh/helm-v3.12.0-linux-amd64.tar.gz
  • 解压文件
tar -zxvf helm-v3.</
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值