
Pythom爬虫
Dumbliidore
A leaver.
展开
-
Python3爬虫实战(requests模块)
上次我通过两个实战教学展示了如何使用urllib模块(http://blog.youkuaiyun.com/mr_blued/article/details/79180017)来构造爬虫,这次告诉大家一个更好的实现爬虫的模块,requests模块。使用requests模块进行爬虫构造时最好先去了解一下HTTP协议与常见的几种网页请求方式。闲话少说,我们进入正题。使用requests模块改进上次的例子中的代码1...原创 2018-01-27 16:10:19 · 4913 阅读 · 0 评论 -
Scrapy防爬虫措施
1.禁止Cookie部分网站会通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置将setting.py中的下面两行代码里的COOKIES_ENABLED = False 的注释去掉即可。2.设置下载延时部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scr...原创 2018-02-22 23:07:20 · 1228 阅读 · 0 评论 -
Scrapy多个spider指定piplines
这段时间我在一个爬虫项目写了两个蜘蛛(http://blog.youkuaiyun.com/mr_blued?t=1),都需要通过piplines将数据保存到Mysql数据库,所以在piplines写了两个类。一个MoviePipeline(),一个BookPipline()import pymysql'''class MoviePipeline(object): def __init__(s...原创 2018-02-23 14:59:13 · 3228 阅读 · 1 评论 -
Python+Scrapy爬取起点小说网数据存入Mysql与MongoDB数据库
抓包分析,找到整页数据所在,可以看到是在"lang"下。继续分析,找到每一本数据所在分析完毕,进行编码爬取。1.编写itemclass BookItem(scrapy.Item): # 小说名 book_name = scrapy.Field() # 作者 author = scrapy.Field() # 小说类型 book_type = scra...原创 2018-02-21 17:04:25 · 3773 阅读 · 0 评论 -
Python3 + Scrapy 爬取豆瓣评分数据存入Mysql与MongoDB数据库。
首先我们先抓包分析一下,可以看到我们想要的每一页的全部数据都在"article"下。而其中每一部的电影的数据可以看到在"info"下。所以我们只要在info下找到自己的目标数据并想好匹配方法即可,本文使用的是xpath,其实也可以在spiders中导入pyquery或者BeautifulSoup来进行匹配,当然正则也是可以的。现在我们去找到目标数据。这些便是我们的目标数据,接下来便可以动手爬取了。...原创 2018-02-19 20:34:36 · 2832 阅读 · 0 评论 -
Python Scrapy爬虫多开
如果想要一个Scrapy项目里的爬虫同时运行,就需要修改crawl源码,开启蜘蛛多开模式。1.在项目中的spiders同级目录下创建一个新文件,我这里命名为mycrawls,在该文件夹下创建一个Python文件,我这里为startspiders.py,在同级目录下再创建一个__init__.py文件。如下图所示:2.在Python的安装目录下找到 D:\python36\Lib\site-pack......原创 2018-02-24 11:21:01 · 3197 阅读 · 3 评论 -
Scrapy奇特报错分析
1.unpack from require a buffer of 4 bytes在爬虫项目文件下会产生一个缓存pause文件夹,将这个文件夹删除即可。原创 2018-02-25 23:40:47 · 1347 阅读 · 1 评论 -
Python爬取拉勾网招聘信息存入数据库
先抓包分析我们想要获取的数据,很明显都是动态数据,所以直接到Network下的XHR里去找,这里我们找到具体数据后,就要去寻分析求地址与请求信息了。还有需要提交的表单信息分析完毕之后,我们就可以开始写我们的爬虫项目了。一.编写Itemitem编写比较简单# 拉钩职位信息class LagouItem(scrapy.Item): # 城市 city = scrapy.Field()...原创 2018-03-12 23:21:02 · 2988 阅读 · 2 评论 -
Windows Python3.6下安装Scrapy
第一步:pip install wheel 第二步:pip install lxml 如果第二步不成功,则进入https://www.lfd.uci.edu/~gohlke/pythonlibs/网站内按 Ctrl+F 输入 lxml 找到 lxml.whl文件。其中 lxml-4.2.1 是模块版本, cp27 是所支持的Python版本,win32是支持电脑...原创 2018-03-27 16:48:38 · 3599 阅读 · 0 评论 -
Python Requests爬取百思不得姐视频
# 爬取百思不得姐的视频import requestsfrom bs4 import BeautifulSoupimport os# 解析网页def open_url(url): # 添加头部信息反爬取 header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)\ Appl...原创 2018-02-21 22:24:44 · 1816 阅读 · 0 评论 -
Python3 + selenium自动登录QQ空间
使用selenium+Python+webdriver# 登录qq空间from selenium import webdriverimport timebrowser = webdriver.Chrome()browser.get('https://qzone.qq.com/')browser.switch_to_frame("login_frame")time.sleep(0.5)...原创 2018-02-18 20:13:18 · 4794 阅读 · 0 评论 -
Python3 +Scrapy 爬取腾讯控股股票信息存入数据库中
目标网站:http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四个数据表找到这四个数据表的信息所在数据名第一条到第三条数据所在其他三个表也是这样子寻找,找到数据后,就可以动手爬取了。于2018\3\17 重写。一.Item# 腾讯控股股票信息class GupiaoItem(scrapy.Item): # 数据标题 t...原创 2018-03-08 11:47:43 · 2328 阅读 · 0 评论 -
Python3爬虫实战(urllib模块)
2018.01.27 。我的第一篇博客。在自学Python的过程中,爬虫是我学的最有趣的一个方面,现在我把学习爬虫的总结展示出来。学Python爬虫中,第一个接触的模块就是urllib,下面我将通过实战教学告诉大家如何使用urllib中的request模块构造爬虫,使用工具为Pycharm。1.Requesturllib.request.Request(url, data=None, header...原创 2018-01-27 14:39:49 · 7644 阅读 · 1 评论 -
Python 多线程爬取豆瓣TOP250
#多线程爬取豆瓣TOP250存入文档import requestsfrom bs4 import BeautifulSoupimport threadingimport timeimport queueimport os#线程1获取网页真实地址并存入队列中 class geturl(threading.Thread): def __init__(self, urlqueu...原创 2018-02-26 13:02:47 · 1553 阅读 · 0 评论 -
Python 多进程爬取豆瓣TOP250
import requestsfrom bs4 import BeautifulSoupimport multiprocessingimport timeimport os# 进程1获取网页真实地址并存入队列中class geturl(multiprocessing.Process): def __init__(self, urlqueue, count, url): ...原创 2018-02-26 13:03:27 · 775 阅读 · 0 评论 -
Python requests模块爬取妹子图
import requestsimport osimport re#获取网页信息def url_open(url): #添加头部信息记得加上 Referer,不然图片地址会变成防盗链接 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...原创 2018-02-26 13:06:15 · 763 阅读 · 0 评论 -
Python3+Scrapy爬取百度音乐排行榜
一.编写Itemclass MusicItem(scrapy.Item): # 音乐排名 top = scrapy.Field() # 音乐名 music_name = scrapy.Field() # 歌手 songer = scrapy.Field() pass二.编写PiplinesMysqlclass MycrawlPipeline(...原创 2018-03-07 12:02:49 · 1250 阅读 · 0 评论 -
Python3 + Scrapy爬取猫眼电影排行榜
首先抓包分析,所需的整页数据都在"main"下,再细分每一部的信息。每一部电影的信息在"board-item-main"下。接下来我们可以去找到目标数据并想好匹配方法了。我们所需的四种数据就找到了,接下来可以去动手了。一.编写Itemclass MaoyanItem(scrapy.Item): top = scrapy.Field() title = scrapy.Field()...原创 2018-03-07 14:09:20 · 2050 阅读 · 4 评论 -
Python3爬取有道翻译的两种方法
一. 破解参数加密有道翻译的请求是post,携带一系列参数,直接F12刷新进行调试,如下图所示:这是一个 post 请求,目标网址是'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'接下来让我们看看发送该请求需要携带哪些参数如图所示,红色方框里的就是需要携带的参数了。...原创 2019-05-26 23:25:41 · 5141 阅读 · 9 评论