
爬虫
小脏辫儿
web开发,爬虫,多多指教,
展开
-
scrapy实现分布式
scrapy实现分布式其实主要是需要redis的队列来实现,想做这个,建议先了解下redis的基础形式我的上篇博客说过,spider的基础流程而,分布式其实就是将spider获取的url包装成requests,发送给调度器scheduler的时候,使用redis的队列进行分发,分发给多个单机爬虫调度器,同时将存储的结构化数据保存到redis继承自父类为RedisSpider2.增加了一...原创 2019-09-22 10:39:15 · 744 阅读 · 0 评论 -
scrapy框架
首先我们先了解下scrapy的基本知识,scrapy框架的作用:通过少量代码实现快速抓取1.简单爬虫的基本流程:或者是这样而scarpy的流程是另一种模式1.调度器把requests–>引擎–>下载中间件—>下载器2.下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫3.爬虫提取url地址,组装成reques...原创 2019-09-22 10:16:17 · 154 阅读 · 0 评论 -
爬虫登陆问题,selenium截取图片验证码
获取登陆验证码,需要了解前端的基本构造,css的模块尺寸中间件,需要自己补足一下前端的基本知识能力上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverfrom PIL import Image# import pytesseractimport timefrom io import ...原创 2019-09-21 11:16:37 · 564 阅读 · 0 评论 -
爬虫处理iframe的方法
iframe是前端内嵌页面,访问域名与主网页不同,requests请求无法获取,技术可以的话,可以从解析js抓取iframe域名,要技术过硬啊,需要的参数很多以后再说上代码#!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverbrowser = webdriver.Chrome('./chrom...原创 2019-09-21 11:01:59 · 11235 阅读 · 2 评论 -
seliunm的基本使用
这篇写一个selenium简单爬虫,至于安装什么的,直接下,网上有不少资源,chromedriver的下载,主要写一个基本的写法1.模拟浏览器2.获取爬虫的url,模拟浏览器3.模拟浏览器,点击切换页面,4获取内容,写成item保存5.文本写入# !/usr/bin/python3# -*- coding: utf-8 -*-import csvimport jsonimpor...原创 2019-09-21 10:47:56 · 1001 阅读 · 1 评论 -
百度贴吧爬虫
爬虫基本格式上篇有了,这篇记录图片的爬取,同样没啥技术点,上代码import requestsfrom lxml import etreefrom pprint import pprintclass TiebaSpider(object): def __init__(self): self.kw = "魔兽世界" self.base_url = ...原创 2019-09-21 10:07:08 · 258 阅读 · 0 评论 -
起点爬虫爬取全部书籍
起点的爬虫没有什么特殊的难点,就以基本的爬虫步骤简单的看一下,不说上代码// A code blockimport csvimport jsonfrom lxml import etreeimport requestsclass QiDianSpider(object):def __init__(self): self.base_url="https://www.qidian...原创 2019-09-21 09:55:30 · 2500 阅读 · 0 评论 -
illegal multibyte sequence
抓取数据时遇到的问题 gbk无法解码,illegal multibyte sequence原因:1.utf-8编码2.gbk编码,但是有多字符和特殊字符gbk无法解码解决方式:打开网页:F12 在console输入document.charset 查看编码方式确定编码方式后,如果是utf-8 就改编码语言,如果是gbk那么问题就出在第二项上解决方式:改用复杂度更高的gb18030,解码...原创 2018-11-26 10:14:51 · 31988 阅读 · 1 评论 -
python爬虫js逆向
js逆向要想是想,要非常熟悉web的运行流程,针对不同网站,有不同的思路,这个博客是针对人人直播的一个爬取,先直接上代码,然后在讲解,import requestsimport js2pyimport jsonheaders = { "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) Apple...原创 2019-09-22 11:20:05 · 1123 阅读 · 0 评论