前言:scrapy有一个组件Stats Callection,是一种scrapy的Extension扩展组件。如果分布式爬取将会各自统计爬取数据,如何实现分布式统计信息共享呢?参考scrapy_redis设置只需要在scrapy爬虫项目里面的settings.py中添加:STATS_CLASS=“scrapy_redis.stats.RedisStatsCollector”。
准备工作
能将scrapy爬虫项目在kubernetes上运行起来
另外kubernetes安装了Helm
实现Prometheus+Grafana监控爬虫,需要做到三步:
- 生成scrapy的Exporter,用于收集统计数据
- 将Grafana与Prometheus对接起来,构建可视化面板
- 配置告警
将Scrapy数据对接到Prometheus
如何实现:借助于Scrapy的Extension和开源工具:prometheus_client,传入一些参数构造不同的指标爬取数据,生成Exporter格式内容;
并且借助于开源库:GerapyPrometheus-Exporter来实现Exporter
安装开源库:
pip3 install gerapy-prometheus-exporter
安装完成后需在settings.py配置并启用
EXTENSIONS = {
'gerapy_prometheus_exporter.extension.WebService':500,
}
查看Exporter:
- 将项目部署到Kubernetes上
通过将Service将9410端口暴露
设置deployment.yaml和service.yaml文件
具体设置文件不详细说明,可以网上查询部署配置
- 查看web服务是否成功
kubectl port-forward svc/<service-name> 9410:9410 -n <namespase>
重新本地打开查看Exporter:http://localhost:9410/metrics
上面HTTP服务页面配置到Prometheus里面抓取储存
由于项目部署到kubernetes上,所以Prometheus也要部署到kubernetes上
使用Helm部署Prometheus+Grafana
安装Helm
安装前需对应版本,官网查看:https://helm.sh/zh/docs/topics/version_skew/
- 下载安装包
其他版本安装包地址:https://github.com/helm/helm/releases
wget https://get.helm.sh/helm-v3.12.0-linux-amd64.tar.gz
- 解压文件
tar -zxvf helm-v3.</