定向爬虫
WhareSong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
定向爬虫(3)--多线程爬取二进制文件
多线程和单线程对比,可以大大提高爬虫并行运行的效率 实现多线程爬虫,需要引入multiprocessing包,并通过其中的Pool方法实现 import multiprocessing 首先创建第一个请求函数,实现对原网页的请求,从中获取每个图片的地址,并将其存储在list[]列表中 代码如下 这里爬取 123排行榜 中的世界raper榜,URL=‘https://mip.phb123.com/renwu/geshou/29155.html’ 获取到原网页后,编码、转换xpath对象,先抓大后抓小原则,原创 2020-08-19 11:02:25 · 353 阅读 · 0 评论 -
爬虫日记(4)—定向爬虫与mongdb和redis的集合
定向爬虫最重要的我个人认为是xpath语句的书写,其他的都比较容易理解 关于mongodb和redis的基本语法,这里就不在赘述,有很多关于这方面的博客,可以看一下。 直接上代码吧,注释写的也比较清晰容易理解 import requests import lxml.etree import redis import pymongo # 初始化redis数据库 client = redis.StrictRedis() # 初始化mongodb数据库 db = pymongo.MongoClient()原创 2020-08-18 17:16:42 · 214 阅读 · 0 评论 -
定向爬虫(1)——第一个单线程爬虫
看了好几天的爬虫,终于有点眉目,于是写了第一个单线程爬虫,问题很多,但功能基本实现了 简单记录一下,以后可以翻看回忆 这里爬取的是努努书坊的《龙族五》,原网页链接如下:https://www.kanunu8.com/book2/10943/ 先撸一下基本框架结构: 1)使用request获取网页源码 2)使用正则表达式提取内容 3)文件操作,写入文件保存文件 检查网页元素,很容易可以找出特别的地方, ......... <dl><dt>正文</dt><dd>原创 2020-08-10 19:19:43 · 340 阅读 · 0 评论 -
定向爬虫(2)———xpath爬取 疯狂中文网 小说总榜
定向爬虫实现起来比较简单,也比较容易理解 难搞的是Xpath语句我觉得写的明明是对的,然后返回结果为空,一直谷歌,一直找原因,最后妥协了,还是copy比较好用(手动狗头)。 直接上代码吧,也没有什么特别的东西,大多东西都写在注释里了 import requests import lxml.etree # 最终选用etree import lxml.html # 因为就返回结果为空,试了两种方法的对象构造 import csv # 程序开头先定义网址 url = 'http://www.fkzww.com原创 2020-08-14 16:30:34 · 578 阅读 · 0 评论
分享