
爬虫
文章平均质量分 82
网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
冰山一树Breezs
向下以触冰山之地,向上以视云层之巅,而中以桑基为流,所见即所得!
展开
-
selenium在爬虫中的使用
selenium在爬虫中的使用一. selenium概述1.1 定义Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏等。我们可以使用selenium很容易完成爬虫的编写。1.2 作用与工作原理利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页原创 2022-03-03 15:09:05 · 1999 阅读 · 0 评论 -
爬虫基本知识,如何发起请求,进行分析
爬虫基础知识爬虫一个实战性很强的内容,下面是一些知识点,方便日后复习,具体还要去案例看看,随机应变。这是我的github爬虫仓库,欢迎大家clone进行学习和体验。一. 网络爬虫概述定义网络蜘蛛(spider)、网络机器人(robot),抓取网络数据的程序其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越像越好,让Web站点无法发现你不是人爬取数据的目的1、公司项目测试数据2、公司业务部门及其他部门所需数据3、数据分析企业获取数据方式1、公司自有数据2、第三方原创 2022-03-03 14:41:59 · 1781 阅读 · 0 评论 -
如何建立自己的代理IP池,减少爬虫被封的几率
scrapy.post请求(获取网易翻译)cookies的三种方式之间放在headers中写在主spider文件中,传参给FormRquest写在中间件中import pytesseractfrom selenium import webdriverfrom PIL import Imageimport timeurl='https://tiku.ekgc.cn/testing/klogin'driver=webdriver.Chrome()driver.get(url)time原创 2022-03-03 12:49:31 · 4759 阅读 · 0 评论 -
安装xpath helper方便进行爬虫
因为我使用的是edge浏览器,扩展商店搜索不到xpath-helper,但是我不甘心,取下载源扩展直接放在edge中试试##下载XPath helper的源码首先下载源码,进入xpath-helperhttps://github.com/eliasdorneles/xpath_helper...原创 2022-02-26 12:38:18 · 2020 阅读 · 6 评论