
爬虫
码码更快乐
分享即快乐
展开
-
python requests爬虫
1、介绍requests是爬虫的利器,可以设置代理ip,cookies,headers等多种反爬虫手段,过滤数据笨的办法可以使用正则,比较可靠稳定的办法使用xpath,找了一个爬虫腾讯招聘的code简要说下2、代码设置tr标签的属性值:tr[@class='c bottomline'] td[1] 表示第一个td标签 .// : 表示选取当前节点开始匹配,直到匹配到符合条件的...原创 2018-10-30 19:08:48 · 282 阅读 · 0 评论 -
request爬虫文件方式
import requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}data = { 'docIds': '532bd8e...原创 2018-12-20 16:29:27 · 430 阅读 · 0 评论 -
python爬虫新浪微博
一、新浪微博全栈爬虫先不扯皮,直接上获取数据效果图爬虫策略:递归获取每个用户的粉丝用户id,想要获取多少用户id,则可以获取多少;利用获取的用户id再获取每个用户的所有数据 例如爬黑猫警长GIAO的一条微博所有评论爬虫策略:进入手机端找到微博对应的微博id,进行爬虫,利用如下方式组合成url,进行爬虫url组合方式:'https://m.weibo.cn/commen...原创 2018-12-18 11:16:48 · 1601 阅读 · 0 评论 -
python链家爬虫
1、爬虫code# coding=utf-8import requestsimport reimport pymysqldef get_info(url): response = requests.get(url) response.encoding = 'utf-8' title_add = r'alt="(.*?)" data-apart-layout...原创 2018-12-18 11:35:54 · 697 阅读 · 0 评论 -
12306自动抢票软件
一、说明12306目前反爬虫手段做的越来越牛逼了,一旦检测到,直接就封号了或者很容易导致登录失败,必须更换代理服务器才能登录,所以做测试的时候一定要小心,要先把代理IP池搞好,再做测试。二、代理IP池1、获取代理IP途径,获取代理IP链接,记得将ip、端口、协议类型都获取下来,存放到一个文本中 2、获取的代理IP可能不存活,如果想验证IP的存活性的话,可以使用nmap进行验证,...原创 2018-12-18 13:45:27 · 3046 阅读 · 0 评论