
爬虫
陈伦(colby)
项目经理/数据架构师/资深数据从业者。
熟悉传统数据、互联网数据处理,精通数据仓库方法论、数据迁移、数据处理、数据可视化、数据建模、架构设计、方案设计,曾负责多个数仓项目0到1建设并落地,有PB级数据调优实战经验!
曾获得计算机四级数据库证书、PMP项目管理专业人士证书等。
展开
-
Python之Scrapy框架Redis实现分布式爬虫详解
1、创建scrapy工程scrapy startproject youboy2、scrapy工程目录介绍│ main.py #爬虫程序入口cmdline.execute("scrapy crawl youboySpider".split())│ scrapy.cfg └─spider_youboy │ items.py #定义要存储的字段,原创 2017-09-29 14:45:04 · 3833 阅读 · 3 评论 -
Python爬虫代理IP结合BeautifulSoup MongoDB
安装包准备:pymongo、BeautifulSoup实现代码#coding=utf-8import requestsimport pymongofrom bs4 import BeautifulSoupfrom conf.config import *from multiprocessing import Poolclient=pymongo.MongoCli...原创 2019-08-28 17:29:26 · 411 阅读 · 0 评论