
python 爬虫
M晨曦启明M
这个作者很懒,什么都没留下…
展开
-
用selenium以外的方法实现爬取海报时尚网热门图片
废话不多说, 直接上代码! ! !import jsonimport osimport timefrom urllib.request import urlretrieveimport requestsimport datetimeimport urllib.parseimport re"""接口连接 http://pic.haibao.com/ajax/image:getH...原创 2018-12-13 14:48:16 · 287 阅读 · 0 评论 -
一个实现scrapy框架部分功能的爬虫(实现了,下载限流器,随机ip代理, 下载去重等功能)
这是一个具备可扩展功能的爬虫!!!import osimport requestsfrom fake_useragent import UserAgentfrom retrying import retryimport hashlib # 信息摘要 md5import queue # 队列import re # 正则表达式from urllib import robotpa...原创 2019-01-06 16:54:18 · 373 阅读 · 0 评论 -
[爬虫]爬取猫眼电影票房信息(信息字体加密)
猫眼电影里面的实时票房, 票房占比等信息是字体加密的, 所以要爬取这些信息需要解决字体加密这个问题. 下面介绍一种解密字体的办法.在橙色方块标注的地方我们可以看出字体是加密的, 我们就以这部分字体为例进行解析.首先我面要找到加密的字体, 查看网页源代码, 搜索font-family, 找到base64后面的字体字符串, 下图中方框中的部分.创建一个font_cat.py的文件, 并将这部分...原创 2019-01-06 16:38:31 · 2772 阅读 · 0 评论 -
解析js代码实现爬取页面所有的ip地址[面试题]
该网页只有在刷新时, 才能显示后面的页面, 且页面会打开新的页面, 跳转时需要的cookies, 由第一个页面的cookies动态生成.下面是具体代码:import requestsimport reimport lxml.htmlclass ExamSpider(object): def __init__(self): self.base_url = 'ht...原创 2018-12-24 22:09:23 · 393 阅读 · 0 评论 -
selenium模拟 + 鼠标滚动爬取魔方公寓租房评论信息
因为魔方公寓的评论信息是在一个单独的div中, 需要模拟鼠标滚动才能拿到评论信息, 并且每次只能拿到在页面显示的内容, 页面没有显示的取出来的是空. 因此只能在每次滚动后取值保存.代码:import timeimport win32api, win32confrom win32api import GetSystemMetricsfrom selenium.webdriver.commo...原创 2018-12-13 19:53:35 · 481 阅读 · 1 评论 -
三种scrapy模拟登陆方式
方法一:直接POST数据(比如需要登陆的账户信息)只要是需要提供岗位数据的,就可以用这种方法下面示例后的数据是账户密码:import scrapyclass Renren1Spider(scrapy.Spider): name = "renren1" allowed_domains = ["renren.com"] def start_requests(self...原创 2018-11-23 17:21:22 · 334 阅读 · 0 评论 -
Scrapy从json文件加载解析规则,使一个爬虫重复使用.并进行数据清洗
我们在scrapy框架做爬虫的时候,对于不同规则的页面,需要写不同的爬虫文件,在这种情况下,部分代码需要重复书写很不方便,对于这种问题.我们可以通过json文件加载解析规则的方法,来解决这样个问题.同时在爬取到的数据中也有一些数据是我们不需要的,同时数据的类型/格式也可能不是我们需要的.需要对数据进行清洗整合才能达到我们的需求,并保存.1.创建一个json文件,并把页面的解析规则写入json文...原创 2018-11-28 17:35:17 · 1350 阅读 · 0 评论 -
使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息
由于智联的页面是由js动态加载的,一般的方法只能得到js加载前的页面,为了得到加载过的页面需要通过模拟浏览器来拿到完整的页面.下面的代码只是简单的实现,爬取智联页面的部分功能,其他根据需要自己实现中间件(middleswares.py)代码:from scrapy.http import HtmlResponsefrom selenium import webdriverimport ...原创 2018-11-29 17:52:55 · 781 阅读 · 0 评论 -
使用scrapy框架,用模拟浏览器的方法爬取京东上面膜信息,并存入mysql,sqlite,mongodb数据库
因为京东的页面是由JavaScript动态加载的所以使用模拟浏览器的方法进行爬取,具体代码如下 :spider.py# -*- coding: utf-8 -*-import scrapyfrom scrapy import Requestfrom jdpro.items import jdproItemnum = 0class MaskSpider(scrapy.Spider):...原创 2018-12-02 13:38:53 · 324 阅读 · 0 评论 -
使用Selenium添加访问cookie, 实现淘宝自动登录
淘宝在不登录的情况下, 许多信息没有显示, 而在登录滑块验证时, selenium模拟会被检测出来, 所以我们利用手机扫码登录, 保存cookies并实现之后登录访问.登录并保存cookieimport jsonfrom selenium import webdriverfrom selenium.webdriver.firefox.options import Optionsopti...原创 2019-01-17 16:37:12 · 7077 阅读 · 8 评论