
Python爬虫
文章平均质量分 88
李奇峰1998
吾生也有涯,而知也无涯
展开
-
网站反爬方案分析
Evernote Export 工商企业数据反爬方案工商企业数据反爬方案一、爬虫识别方法二、常见反爬虫策略三、针对反爬策略攻击者可能会采取的措施四、方案选型一、爬虫识别方法1、http日志和流量分析 对IP访问频率统计,设置一个阈值,如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。2、Headers参数检测 一般有User-Agent、...原创 2019-09-23 11:42:08 · 1078 阅读 · 0 评论 -
基于selenium的动态网页Xpath测试工具
最近在搞一些Xpath网页规则的编写,发现网上的Xpath测试工具很多,但都是基于静态页面的。暂时还没有发现基于动态页面的Xpath测试工具,为了后续的测试方便,于是就自己动手写了一个from tkinter import *import tkinter as tkfrom lxml import etreefrom selenium import webdriverfrom se...原创 2019-03-15 20:23:06 · 659 阅读 · 0 评论 -
RabbitMq连接Java与Python
最近用Python写了一个爬虫项目,为了方便,用Java做了一个控制端,然后用RabbitMq将他们串起来首先Java端的代码,生产者与消费者都采用的单例模式,其中消费者在tomcat启动时自动进行消费。话不多说,上代码//消费者public class ScrapyRabbitCon{ //队列名 private final static String QUEUE_NAME ...原创 2019-02-07 18:05:20 · 1639 阅读 · 0 评论 -
基于scrapy与xslt的通用爬虫框架
框架简述此框架基于scrapy框架与xslt技术构建,通过一个包含xslt样式和xpath语法的xml文件来对网页上的内容进行匹配,然后将匹配到的字段与内容做持久化存储。 其中,在xml文件的编辑中可以定义网页深度和下一级链接,并且匹配到的网页内容可以在不同深度之间进行传递。 其次,代码在入库的时候回根据网页中匹配到的字段和内容自动创建数据库,并且写入数据。...原创 2018-06-10 13:17:37 · 1190 阅读 · 1 评论 -
Python爬虫模拟登陆知乎
在爬取一些网页的时候,往往有些网页的内容是需要登陆才可以获取的,这个时候我们就需要用到模拟登陆。 一开始搞模拟登陆的时候,我尝试过使用selenium的模拟点击,但是感觉那样太麻烦,一是每个网页都需要写特定的规则,而是耗时太长,效率太低。第三个就是验证码。 所以还是安安心心的用post请求吧# coding=UTF-8import reimport requestsfrom bs4 imp原创 2017-11-28 09:11:12 · 445 阅读 · 0 评论 -
利用Python和Redis构建一个免费的代理池
当我们使用爬虫大量重复的请求一个网站时,我们可能回去到封IP的情况,这时候我们就需要使用代理来伪装我们的IP,使之请求能够再次发起代理池的整体构造代理IP来源:各大代理IP网站代理IP的获取:python爬虫代理池的存储:redis数据库代理IP检测:构建请求,检测是否可用调度器:负责统筹调度以上各功能的执行调度器:Scheduler类调度器本身不具有任何具体功能,他只是负责调用已经存在的原创 2017-11-27 18:14:03 · 3134 阅读 · 2 评论 -
Python selenium使用总结
简介以及安装:selenium作为一个自动化的测试工具,主要用于web页面的测试,在Python爬虫中,我们可以使用此工具来对网页元素进行操作,例如启动浏览器,打开网页,前进与后退,定位元素,键盘输入与鼠标点击操作等。可以说,只要在浏览器能够进行的操作,我们都可以用selenium来实现 OK,首先我们需要先安装selenium 如果你的电脑上安装了Python和pip的话,我们只需要调用原创 2017-10-11 08:14:16 · 469 阅读 · 0 评论 -
用Python爬取解析过的网页
之前呢,我怕去了百度贴吧的一些图片,并且保存的下来,然后我想用相同的方法爬取淘女郎-美人库的内容,发现不管怎么编写正则表达式都获取不了“Elements”其中的图片链接,之后去网上一查发现,原来我需要爬取的内容都是经过浏览器解析过的JS的内容,所以之前一直用的request.urlopen()方法此时就不管作用了,需要调用PhantomJS来解析网页,然后将解析过的源码进行筛选,就可以了,话不多说,原创 2017-09-18 20:10:14 · 936 阅读 · 0 评论 -
用Python爬取百度贴吧中的图片
首先,我理解中的爬虫就是一个网页抓取工具和信息筛选工具的集合。 其中的工作原理无非就是首先获取到网页的源码,然后再通过筛选工具,将想要的信息筛选出来,这样就成了以下为程序的源代码__author__ = 'Liqifeng'# -*- coding:utf-8 -*-from urllib import requestimport urllibimport reimport os#爬取贴吧原创 2017-09-13 23:15:07 · 398 阅读 · 0 评论