
python爬虫
wangbowj123
炼丹中。
展开
-
python3通过CookieJar与urllib模拟登陆人人网
人人网有一个登陆用的接口http://www.renren.com/PLogin.do,该接口仅需要提交一个包含用户名和密码post表单再利用cookie的相关处理方法便可以模拟登陆。(不知道为什么还有这种接口存在) 具体代码、实现流程如下:# -*- coding:utf-8 -*-from urllib import request as urllib2from urllib imp原创 2018-01-23 16:50:22 · 1679 阅读 · 1 评论 -
python3利用正则表达式爬取内涵段子
似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握。 先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内。代码如下:# -*- coding:utf-8 -*-from urllib import request as urllib2import re# 利用正则表达式爬取内涵段子url = r'http://www.neihanpa.原创 2018-01-24 13:21:29 · 1205 阅读 · 0 评论 -
scrapy基于CrawlSpider实现爬取西刺代理并验证是否能用
基于scrapy框架的CrawlSpider类实现跟进爬取并利用xpath匹配出每一页的代理ip与端口号保存在txt文档中。 因为西刺代理页面过多,并且靠后的基本没用,所以我们只爬取前9页。 spider文件如下:# -*- coding: utf-8 -*-from scrapy.linkextractors import LinkExtractorfrom scrapy.spide原创 2018-02-01 16:43:05 · 1298 阅读 · 0 评论 -
python3多线程爬虫爬取某美女图片网站的指定页图片资源,你懂的
Queue(队列对象)queue是python3中的标准库,可以直接import queue引用;队列是线程间最常用的交换数据的形式。python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而queue,是线程安全的,因此在满足使用条件下,建议使用队列1. 初始化: class Queue.Queue原创 2018-01-26 16:22:29 · 12329 阅读 · 0 评论 -
python3利用xpath爬取糗事百科数据并保存为json
利用xpath爬取糗事百科的数据,关键在于对xpath的使用,可以用浏览器插件对xpath做相应的对照。 我的处理方法是提取出来相对比较有“概括性”的父节点,然后通过父节点对爬取的页面进行解析得到子节点集,之后再利用for循环遍历节点集,从而再利用子节点提取出用户名、用户发表的段子、点赞数、评论数、帖子包含的图片。最后将其存储在字典里写入json文件。# -*- coding:utf-8 -原创 2018-01-25 20:10:23 · 1617 阅读 · 0 评论 -
解决python3.6下scrapy中xpath.extract()匹配出来的内容转成json与.csv文件没有编码(unicode)的问题
初学scrapy,利用xpath对网页结构进行匹配,写的parse函数如下: def parse(self, response): teacherList = response.xpath('//div[@class="li_txt"]') teacherItem = [] for node in teacherList:原创 2018-01-27 13:09:13 · 2303 阅读 · 1 评论 -
scrapy实战——利用CrawlSpider爬取腾讯社招全部岗位信息(进行有一定深度的爬取)
经过scrapy的简单学习,我们实现这样一个爬虫:爬取腾讯社招的全部岗位信息,将粗略的大致信息保存在tencent.json文件中,将岗位的进一步具体信息(职责、要求)保存在positiondescribe.json文件中。 即,我们需要两个item进行页面信息的保存,同时要继承CrawlSpider对页面链接进行相应提取。 项目目录如下:(创建名为TencntSpider的项目)Tenc原创 2018-01-30 16:29:53 · 2363 阅读 · 2 评论