
scray
Mata_Gao
一只不想当程序猿的程序猿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy突破反爬虫限制
1.用户代理池downloader middleware实现随机更换User-Agent.fake-useragent库:up to date simple useragent faker with real world database.github-搜索fake-useragenthttps://fake-useragent.herokuapp.com/browsers/0.1.5以上这个ur...原创 2018-04-03 18:16:25 · 1240 阅读 · 0 评论 -
关于scrapy框架使用的笔记
1.parse.urljoin(base,url)的使用from urllib import parse Request(url=parse.urljoin(response.url, url), callback=self.parse_detail)提取出response.url的主域名与url(/111954/)做url的拼接。若url中有域名,拼接时不会用response.url提取出的主域...原创 2018-04-11 16:28:41 · 400 阅读 · 0 评论 -
scrapy同步与异步储存数据
1.同步class MysqlPipeline(object): """ 采用同步的机制写入mysql """ def __init__(self): self.conn = pymysql.connect(host="127.0.0.1", user="root", password="ts123456", db="art_sc原创 2018-04-13 16:42:54 · 2620 阅读 · 0 评论 -
CrawlSpider 爬取拉勾网重定向302问题解决方案
custom_settings = { "COOKIES_ENABLED": False, "DOWNLOAD_DELAY": 1, 'DEFAULT_REQUEST_HEADERS': { 'Accept': 'application/json, text/javascript, */*; q=0.01', ...原创 2018-04-20 10:56:02 · 3335 阅读 · 1 评论