
爬虫
文章平均质量分 58
七十二时雲
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python urllib库基本使用
urllib是python提供的一个爬虫的原生框架,python发起网络请求都是通过该框架 1 request.urlopen(url) 打开远程连接 返回值是一个响应对象,响应对象包含响应头和响应体 【注意】urlopen()这个函数只能用于发送简单的请求,无法添加请求头,添加请求头需要使用request.Request()方法 import urllib.request...原创 2018-09-20 15:52:21 · 1825 阅读 · 0 评论 -
python BeautifulSoup
对象的种类:Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag 、NavigableString 、BeautifulSoup、Comment 。 1 Tag:Tag 对象与XML或HTML原生文档中的tag相同 Tag对象属性 属性 解释 属性 解释 .name 获取tag的名字...原创 2018-09-19 20:32:09 · 450 阅读 · 0 评论 -
Scrapy运行流程
Scrapy组件: * 引擎【Engine】:处理整个系统的数据流处理 触发事务 * 调度器【Scheduler】:接收Engine发来的请求并压入队列,在请求时执行出队 * 下载器【Downloader】:通过Engine拿到调度器出队的URL执行下载操作,并将response返回给Spiders * 爬虫【Spiders】:从Downloader返回的response中提取item,即实体(...原创 2018-10-12 21:42:44 · 1001 阅读 · 0 评论 -
xpath中extract()使用
title = response.xpath("//div[@class='entry-header']/h1/text()") title = response.xpath("//div[@class='entry-header']/h1/text()").extract() title = response.xpath("//div[@class='entry-header']/h1/te...原创 2018-12-02 14:36:45 · 7999 阅读 · 3 评论 -
32个爬虫项目
WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的She...转载 2019-06-11 10:24:40 · 940 阅读 · 0 评论