
大数据
文章平均质量分 55
渔老师
专注企业电商采购领域解决方案
展开
-
SkyWalking概要介绍
日志监控 指标监控 请求链路追踪原创 2022-07-31 22:00:00 · 192 阅读 · 0 评论 -
IP属地如何高效率识别
IP属地显示各大平台已经有更新,抖音、今日头条、知乎、小红书等,作为一个技术,如果实现获取IP属地呢,正好近期需要做一个IP属地跳转,识别IP的归属地如果单纯的靠调用接口获取属地信息在效率上难以保证,因此给大家分享一个强大的离线IP地址定位库ip2region获取IP归属地。获取IP属地那么重要的步骤就是获取IP地址,怎么获取ip地址呢?......原创 2022-07-31 08:38:43 · 784 阅读 · 0 评论 -
python爬虫-scrapy基于selenium进行网页截图
python selenium 截图原创 2021-12-01 23:39:51 · 2569 阅读 · 0 评论 -
python - scrapy爬虫规则和注意事项
scrapy爬虫项目的结构items.py: 用来存放爬虫爬取下来的数据的模型。有固定的格式。middlewares.py: 用于存放各种中间的文件。pipelines.py: 用于将items的模型存储到本地磁盘中。settings.py: 本爬虫的一些配置信息。例如,浏览器的请求头,多久发送一次请求,ip代理等。scrapy.cfg: 项目的配置文件。spider包: 以后所有的爬虫,都是存放在这个里面。每个文件结构里面的一些注意事项1. item.py建议在items.py中定义好原创 2021-11-02 19:37:24 · 356 阅读 · 0 评论 -
网站优化技术
nginx简介1.1 nginx是什么Nginx是俄罗斯人编写的十分轻量级的HTTP服务器,Nginx,它的发音为“engine X”, 是一个高性能的HTTP和反向代理服务器,同时也是一个IMAP/POP3/SMTP 代理服务器。Nginx是由俄罗斯人 Igor Sysoev为俄罗斯访问量第二的 Rambler.ru站点开发的,它已经在该站点运行超过两年半了。Igor Sysoev在建立的项目时,使用基于BSD许可。自Nginx 发布来,Nginx 已经因为它的稳定性、丰富的功能集、示例配置文件和.原创 2021-09-02 16:59:12 · 762 阅读 · 0 评论 -
基于centos 搭建GP集群
1.1 软件版本名称版本操作系统CentOS Linux release 7.9.2009 (Core)版本GreenPlum 6.1.01.2 集群介绍使用1个master,n个segment的集群示例:服务器IP地址节点名称172.168.10.2gp-master172.168.10.56gp-sdw1其中172.168.10.2为master,其余为segment。master节点GP安装2.1.1修改 /etc/ho原创 2021-07-02 14:29:45 · 896 阅读 · 0 评论 -
大数据平台建设系列之数据调度-datax实现定时数据增量同步
+、crontab # 每5分钟执行一次shell脚本 */5 * * * * /data/datax/sh/syn_product_summary.sh > /dev/null 2>&1+、sh 脚本 syn_product_summary.sh#!/bin/bashsource /etc/profile# 获取服务器当前时间戳cur_time=$(date +%s)# 数据起始时间设置为5分钟+1分钟前(允许一分钟内的数据重复推送)start_time=$原创 2021-06-30 18:18:06 · 1257 阅读 · 0 评论 -
大数据平台建设系列之数据采集-scrapy网络爬虫加速设置(二)
首先给大家分享一个爬虫对抗图再给大家分享一个最新的scrapy架构图总结的scrapy配置提升方法爬取大量数据的时候,爬取速度显著影响着爬取用时,总结一下我在使用scrapy的时候用来提升爬取速度的方法。在settings.py中设置如下参数:DOWNLOAD_DELAY = 0CONCURRENT_REQUESTS = 100CONCURRENT_REQUESTS_PER_DOMAIN = 100CONCURRENT_REQUESTS_PER_IP = 100COOKIES_ENAB原创 2021-06-07 11:00:22 · 357 阅读 · 0 评论