
爬虫
蓝鲸123
做更好的自己
展开
-
根据图片链接规律爬取图片并下载
import requestsimport urllibimport refrom PIL import Imagecou=1for i in range(0,300): print ('下载') num='' if i<9: num=num+'00'+str(i) elif 10<=i<=99: num=num+'0'+st原创 2017-07-25 22:56:56 · 1246 阅读 · 0 评论 -
selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH
解决办法: 1selenium 3.x开始,webdriver/firefox/webdriver.py的init中,executable_path=”geckodriver”;而2.x是executable_path=”wires”2. firefox 47以上版本,第一步: 需要下载第三方driver,即geckodriver;在 http://docs.seleniumhq.org/do原创 2017-12-17 10:37:47 · 503 阅读 · 0 评论 -
爬取网易云音乐评论《安河桥》,进行分析
这是一首安河桥北,宇西唱的,个人感觉她和宋冬野唱的都很好,十分喜欢。 其中的评论也是十分有趣: 摘取几个看看:如果直接对:https://music.163.com/#/song?id=416892296进行爬取,解析不到任何内容,参照知乎里面才知道评论被网易云加密了。。 参照知乎:https://www.zhihu.com/question/36081767进行了一下分析。首先在开发者模式里原创 2017-12-14 21:03:46 · 6652 阅读 · 0 评论 -
安装browsercookie 、pycrypto 报错:error:INCLUDE environment variable is empty
前言Python中使用SSH需要用到OpenSSH,而OpenSSH依赖于paramiko模块,而paramiko模块又依赖于pycrypto模块,因此要在python中使用SSH,我们需要先安装pycrypto模块,然后再安装paramiko模块。下面话不多说了,来一起看看详细的介绍:使用pip安装browsercookie 、pycrypto 报错:error:INCLUDE environm转载 2017-12-01 11:27:54 · 2976 阅读 · 0 评论 -
scrapy 解析文档
scrapy类的实现位于scrapy.selector 模块from scrapy.selector import Seletorseletor=Seletor(response=response)seletor_list=seletor.xpath("//h1") #选中文档中所有的h1for sel in seletor_list: print sel.xpath('./text()'原创 2017-11-30 08:07:57 · 581 阅读 · 0 评论 -
Python 3.6 模块安装“error: Microsoft Visual C++ 14.0 is required...”问题解决
今天在Python 3.6环境 安装pip install scrapy 遇到下面错误: 解决办法: 1. 安装wheel pip install wheel2. https://www.lfd.uci.edu/~gohlke/pythonlibs/页面下载所需的模块的whl文件,下载后进入存储该文件的路径。按照方法一,执行“pip install Twisted-17.9.0-cp36-c原创 2017-11-30 13:27:31 · 1420 阅读 · 0 评论 -
scrapy 报错 no module named win32api 的解决方案
不能使用pip直接安装win32api解决方案:原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/ 找到对应的版本进行下载,直接安装即可原创 2017-11-29 23:40:18 · 316 阅读 · 0 评论 -
scrapy安装
第一: 使用pip 安装pip install scrapy为了确认scrapy安装成功 import scrapy scrapy.version_info编写第一个scrapy爬虫有专门共初爬者训练的爬虫技术的网站: http://books.toscrape.com首先需要创建 Scrapy 项目,在shell中使用 scrapy startprojectscrapy startproje原创 2017-11-29 22:33:42 · 367 阅读 · 0 评论 -
旅游去哪儿--大数据生成旅游的热点图
编译环境: python31.首先爬取去哪儿网的景点的门票信息(例如:北京地区)爬取的信息保存在xsxl文件和json数据调用百度地图的api 生成可视化的数据 1.根据申请百度地图密钥 ,点击创建应用,应用的名字可以任意,但是应用的类型是浏览器端。 提交之后就会生成应用的ak(密钥)github项目的地址原创 2017-10-16 15:39:57 · 2175 阅读 · 0 评论 -
SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
如何解决SSL 根证书验错误: 一种解决方法是:verify=False 在session.request 里面:session.post(post_url,data=post_data,headers=headers,verify=False)第二种解决方法是: 安装certifi 或者更新requests包原创 2017-07-28 10:25:21 · 3098 阅读 · 0 评论 -
爬取《战狼2》电影短评论,生成图云
模拟登陆豆瓣第一次登陆需要验证码,之后的登陆可以隐去 “login(”username’,’password’)”,因为使用session保存了必要的登陆信息,代码如下:import requeststry: import cookielibexcept: import http.cookiejar as cookielibimport reimport timeimpor原创 2017-08-12 09:31:05 · 6107 阅读 · 24 评论 -
爬取知乎用户信息、头像、问题关注者、用户的所有关注者的头像
#!/usr/bin/env python3# -*- coding: utf-8 -*-'''Required- requests (必须)- pillow (可选)Info- author : "xchaoinfo"- email : "xchaoinfo@qq.com"- date : "2016.2.4"Update- name : "wangmengcn"原创 2017-07-27 13:08:54 · 3618 阅读 · 0 评论 -
selenium模拟fireFox浏览器,爬取网页信息
开发环境:python2.7#-*- coding:utf-8 -*-#实现了通过selenium 爬取网站所有的信息from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport redef pageNum(number): print number.textimp原创 2017-12-17 13:03:21 · 1509 阅读 · 0 评论