
scrapy
文章平均质量分 88
github.com/starRTC
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理Item Pipeline常用于cleansing HTML datavalidating scraped data (checking that the items contain certain fields)checking for duplicates (and dropping them)storing the原创 2017-11-09 16:03:42 · 977 阅读 · 0 评论 -
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看。目录 [隐藏] 1 创建工程2 定义Item3 编写爬虫(Spider)4 存储数据5 配置文件6 艺搜参考创建工程scrapy startproject doubanmoive定义Item# -*- coding: utf-8 -*- # Define here th原创 2017-11-10 12:24:38 · 1375 阅读 · 0 评论 -
成功抓取douban 所有电影
之前爬了250,想爬所有的电影Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+')),callback="parse_item"),修改为start_urls = ["https://movie.douban.com/subject/26611090/"]rules = [Rul原创 2017-12-01 10:56:29 · 833 阅读 · 0 评论 -
成功抓取豆瓣读书的所有书籍
https://book.douban.com/top250判断是不是“ 出版年:”//*[@id="info"]//span[@class="pl"]/text()因为id="info"里面的span有嵌套的span,所以:2个//的含义: bookstore//book 选择属于 bookstore 元素后代的所有 book 元素,而原创 2017-12-01 10:58:20 · 1263 阅读 · 0 评论 -
Scrapy shell使用
注意:容易出现403错误,实际爬取时不会出现。response - a Response object containing the last fetched page>>>response.xpath('//title/text()').extract() return a list of selectors>>>forindex, linkin原创 2017-11-23 16:17:44 · 373 阅读 · 0 评论 -
网易云音乐 抓取成功,按评论数排序
可以生成外链播放器151646&auto=0&height=32">需要保存的项有:m_name :歌名m_singer:歌手vote 评论数url : 链接播放功能通过相似歌曲查找其它歌,歌名//*[@id="auto-id-xRQFDgyFzdwbznWT"]/div[3]/div[1]原创 2017-11-24 20:44:12 · 2899 阅读 · 0 评论