
爬虫
LMRzero
一名热爱编程的小白,希望与大家一起学习进步
时间序列分类 / Spark / 实时计算
展开
-
爬虫利器:Python获取免费IP代理
由于现在很多网站都有反爬虫机制,同一个ip不能频繁访问同一个网站,这就使得我们在进行大量数据爬取时需要使用代理进行伪装,本博客给出几个免费ip代理获取网站爬取ip代理的代码,可以嵌入到不同的爬虫程序中去,已经亲自测试有用。需要的可以拿去使用(本人也是参考其他人爬虫程序实现的,但是忘记原地址了)。# coding=utf-8import urllib2import rep...原创 2020-05-06 20:58:48 · 4171 阅读 · 1 评论 -
爬虫利器:PhantomJS快速入门
完成PhantomJS安装配置完成之后,下面进行简单的入门操作。首先通过一个小例子来演示PhantomJS,在电脑上新建一个JavaScript文件,在里面输入代码:console.log('Hello, world!');phantom.exit();在命令行输入:phantomjs test.js输出内容为Hello, world!。代码中的第...原创 2020-05-04 19:55:57 · 4816 阅读 · 3 评论 -
Window环境下下载安装Phantomjs
PhantomJS是一个基千WebKit的服务器端JavaScriptAPI。它全面支持Web而无需浏览器支持,不仅运行快,原生支持各种Web标准:DOM处理、css选择器、JSON、Canvas,和SVG。PhantomJS可以用于页面自动化、网络监测、网页截屏,以及无界面测试等。PhantomJS 可以看做一个没有界面的浏览器,它既有Firefox浏览器、google浏览器的功...原创 2020-05-04 18:15:11 · 3830 阅读 · 2 评论 -
Python爬虫之Scrapy(爬取csdn博客)
本博客介绍使用Scrapy爬取博客数据(标题,时间,链接,内容简介)。首先简要介绍Scrapy使用,scrapy安装自行百度安装。创建爬虫项目安装好scrapy之后,首先新建项目文件:scrapy startproject csdnSpider创建项目之后会在相应的文件夹位置创建文件:创建爬虫模块首先编写爬虫模块,爬虫模块的代码都放置于spiders文件夹中 。 爬虫模...原创 2020-05-03 15:49:00 · 5994 阅读 · 4 评论 -
Python动态网页爬取
前面所讲的都是对静态网页进行抓取,本博客介绍动态网站的抓取。 动态网站的抓取 相比静态网页来说困难一些,主要涉及的技术是Ajax和动态Html。简单的网页访问是无法获取完整的数据,需要对数据加载流程进行分析。针对不同的动态网页爬取方法,将分别用具体实例进行介绍。本博客主要是直接利用Ajax来获取数据。页面分析本博客以MTime电影网为例,主要爬取电影的评分票房等信息。首...原创 2020-05-02 11:25:51 · 5752 阅读 · 1 评论 -
Python静态网页爬虫项目实战
本爬虫是基于《Python爬虫开发与项目实战》一书实现的,基于现在的网页版本进行更新,可以成功抓取数据。爬虫基础架构和流程《Python爬虫开发与项目实战》一书中的介绍和图首先介绍爬虫的基础架构和流程如下图所示:基础爬虫框架主要包括五大模块, 分别为爬虫调度器、URL 管理器、HTML 下载器、 HTML解析器、数据存储器。功能分析如下:已爬虫调度器主要负责统筹其他四个模块...原创 2020-05-01 20:41:37 · 5159 阅读 · 1 评论 -
Python之BeatuifulSoup使用
# coding:utf-8from bs4 import BeautifulSoupimport bs4html_str = """<html><head><title>The Dormouse's story</title></head><body> <P class="title"><...原创 2020-04-28 23:31:50 · 4339 阅读 · 1 评论 -
使用Python登录优快云(最新验证可用)
作为一个爬虫菜鸟,今天在网上看到使用Python来模拟登录的博客,就在优快云上试了试,结果处处碰壁。由于优快云更新了登陆验证方式,网上的一些方法已经不能使用,试了很久终于是模拟登陆成功了,但是频繁登陆会导致账号异常。谷歌浏览器查看登录请求网址:https://passport.youkuaiyun.com/login?code=public,输入账号密码登陆,查看NetWork,如下...原创 2020-04-20 14:31:52 · 8078 阅读 · 10 评论 -
基于Spark的热点网络小说分析(一)
在项目中,我们将利用Spark对阿里文学网站上的小说进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。1.获取数据在本项目中我们主要使用阿里文学上各种类型小说作为数据集来源。我们首先需要使用Scrapy对网站中的小说进行抓取,我们...原创 2019-06-16 23:06:58 · 6633 阅读 · 2 评论 -
Scrapy入门案例
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。1...原创 2019-06-12 15:23:41 · 10300 阅读 · 6 评论 -
Scrapy爬取起点小说网数据导入MongoDB数据库
本文中我们将详细介绍使用Scrapy抓取数据并存入MongoDB数据库,首先给出我们需要抓取得数据:抓取起点网得全部作品,网址为:https://www.qidian.com/all关于Scrapy的下载与安装请移步上篇博客Scrapy简单案例关于MongoDB的下载安装请移步博客MongoDB安装下面直接给出相关代码;(1) 数据封装类item.py# -*- co...原创 2019-06-12 20:35:49 · 9279 阅读 · 3 评论