
爬虫
文章平均质量分 85
永不退场的闯关族
永不退场的闯关族
展开
-
scrapy框架实现豆瓣电影top250
Scrapy 是用纯 Python 实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用户只需要定制开发几个模块就可以实现一个网络爬虫程序,其采用了异步通讯的方式可以快速进行数据爬取。在python爬取豆瓣电影Top250我们实现了使用requests模块爬取电影信息,今天使用scrapy框架实现这一需求,体验一下scrapy框架的简洁性和快速性。如果还没有安装scrapy框架,可以浏览一下python安装scrapy实现安装。1.新建项目在开始爬取之前,必须创建一个新的 Scrapy 项.原创 2021-02-24 12:15:45 · 2051 阅读 · 0 评论 -
python爬虫——有道翻译JS解密
分析网页爬虫兴起的同时,反爬虫手段也在不断更新,今天以有道翻译http://fanyi.youdao.com/为例,介绍破解JavaScript加密的反爬虫基本流程。我们进入网站,随便输入一个内容(比如spider),会在network的XHR下发现一个translate开头的动态加载文件,查看一下它的标头:这是一个POST请求,URL为http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule。再看一下响应原创 2021-02-21 23:37:23 · 583 阅读 · 0 评论 -
python爬取斗鱼直播信息
Selenium是自动化测试常用的实现模块,但其的应用不仅仅局限在于自动化测试,这里介绍Selenium+WebDriver实现数据爬取。需求分析1.使用Selenium+WebDriver访问斗鱼平台英雄联盟页面,爬取当前所有直播用户的房间名和观众人数。2.使用MongoDB实现所爬取数据的保存。页面分析创建一个douyuSpider.py的文件,导入selenium模块并实例化一个webdriver对象。from selenium import webdriverdriver =.原创 2021-02-03 20:55:47 · 1119 阅读 · 0 评论 -
微信读书top100
要说鹅厂良心产品排行,微信读书绝对名列前茅。今天就来写一个微信读书各专栏top100的爬虫程序。1.页面分析进入到https://weread.qq.com/web/category/100000页面。总共有17个专栏(除男生小说榜、女生小说榜),首先看一下这17个专栏页面URL有什么规律。https://weread.qq.com/web/category/100000https://weread.qq.com/web/category/200000https://weread.qq.c.原创 2021-02-16 22:31:21 · 2292 阅读 · 5 评论