
爬虫
文章平均质量分 54
(DᴗD)B
不会机械的程序员不是一个好的R6玩家。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
windows+python+selenium+chrome headless的启动方法
启动headless 找了老长时间启动headless的方法,网上很多教程都没有看懂,最后发现竟然出奇的简单,表示要记下来。 首先要安装谷歌浏览器,并更新到最新版本,然后安装ChromeDriver,就可以开始了 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_...原创 2018-11-24 11:59:19 · 951 阅读 · 0 评论 -
利用代理池和多线程爬取房天下上万条数据
有了代理池之后就可以爬很多网站了,很多网站的反爬措施都是从ip方面下手,通过代理池可以近乎拥有无穷的ip,再也不怕封ip啦 下面我找上了房天下这个网站练一下手,通过测试,这个网站的反爬措施是一旦你访问过于频繁,他就会给你一个验证码,通过了验证码才能继续浏览。由于本人水平有限,可以说破解不了任何的验证码,所以希望通过更换ip来达到目的。 首先,先来了解一下这个网站,我准备爬取二手房的数据 这个是筛选...原创 2018-12-26 23:47:17 · 1246 阅读 · 2 评论 -
Python中xpath选择器的学习
xpath选择器是一个很方便,又很容易上手的一个选择器,用了一段时间,总结一下经常用到的东西。还有一些我没有用到的,这里就不说啦。 目录: 自己画的一个思维导图(自己记忆力不好,这样记得清楚) 各种规则的案例 各种方法的案例 1.思维导图 2.规则的使用 首先展示一段html的源码,通过源码进行学习。 ...原创 2018-12-11 16:34:16 · 619 阅读 · 0 评论 -
建立自己的小型代理池
建立自己的小型代理池 拥有一个代理池会很大程度上的帮助我们进行工作,经过一番研究,自己写了一个代理池的小程序,删去了很多的功能,留下了最主要得。 下边为自己的逻辑。 因为储存和获取模块相对简单,所以合成为一个模块。 粘贴出整个模块代码。 获取的代理的网站有很多,这里只写了一个,对于我自己来说是够用了。 import requests from lxml import etree import t...原创 2018-12-25 23:16:55 · 921 阅读 · 0 评论