
爬虫
三猪
一个不知名的码农
展开
-
scrapy框架学习(六)Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。以下是item pipeline的一些...原创 2019-06-02 16:26:24 · 565 阅读 · 0 评论 -
scrapy框架学习(五)Item Loaders
Item Loaders提供了一种便捷的方式填充抓取到的 :Items 。虽然Items可以使用自带的类字典形式API填充,但是Items Loaders提供了更便捷的API, 可以分析原始数据并对Item进行赋值。从另一方面来说, Items 提供保存抓取数据的 容器 , 而 Item Loaders提供的是 填充 容器的机制。Item Loaders提供的是一种灵活,高效的机制,可以更...原创 2019-05-28 15:42:59 · 226 阅读 · 0 评论 -
scrapy框架学习(四)选择器(Selectors)
scrapy中的选择器主要有使用XPath、CSS查询。XPath CSS 说明 response.xpath('//title/text()') response.css('title::text') 提取真实的原文数据 response.xpath('//base/@href') response.css('base::...原创 2019-05-28 12:57:58 · 375 阅读 · 0 评论 -
scrapy框架学习(三)Spiders
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 也就是说我们对网页的解析需要在Spider类中定义。Spider类的爬取方式:①spider中初始的request是通过调用 start_requests() 来获取的。 start_requests() 读取 start_urls 中的URL, 并...原创 2019-05-28 09:40:16 · 279 阅读 · 0 评论 -
scrapy框架学习(二)Items
Item对象是种简单的容器,保存了爬取到得数据1.打开并修改items.py文件,新建了两个属性 name、url分别存储电影名和对应的相对地址# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy...原创 2019-05-28 00:14:43 · 653 阅读 · 0 评论 -
scrapy框架学习(一)Scrapy初体验
开头先附上scrapy框架学习的视频传送门:2018年最新Python3.6网络爬虫实战再附上:Scrapy中文手册与Scrapy英文文档1.在项目文件夹下创建一个新的scrapy项目,名为‘samzhu’scrapy startproject samzhu2.在项目文件夹下会出现如下文件 scrapy.cfg: 项目的配置文件 samz...原创 2019-05-27 23:08:31 · 212 阅读 · 0 评论 -
beautifulsoup解析html后内容缺失
soup = BeautifulSoup(res.text,"lxml") 使用'html5lib'替代'lxml'解决问题原创 2018-11-05 20:38:37 · 6804 阅读 · 4 评论 -
Python+Selenium刷问卷星问卷
正巧最近在做一份问卷,心血来潮就码了这么一个东西,仅供玩乐,切勿滥用.目前只是一个简单的模型,具体的题型设置还需要自己去修改一下代码.安装好需要的Python的各个模块以及Chromedriver就OK了下面代码的题型对应的是我自己问卷的题目设置,所以,如果要使用,还要根据具体情况修改注:每填写完一份问卷最后把延时放久一些,太快问卷星会刷出验证码.验证码的识别以后还记得就来加上....原创 2018-10-18 23:41:17 · 11875 阅读 · 4 评论 -
图片批量抓取下载
实现功能:对该网页上首页的推荐背景图进行下载到本地.代码如下:import requestsfrom bs4 import BeautifulSoup def pic(src,name):#对给定的url地址进行下载,命名为'name' f=open(name+'.jpg','wb') f.write(requests.get(src).content)newurl='http:/...原创 2018-04-08 14:07:35 · 1225 阅读 · 0 评论 -
人民网多页新闻推荐进行信息查找及xlsx打包
人民网财经频道或其他频道均可(更改网址模板可改变)经济频道网址:http://finance.people.com.cn/index1.html#fy01主要查找的信息为新闻的日期,来源及标题并储存为.xlsx效果如下:重点:需要将每个新闻的信息字典转化为json格式,并利用.append添加到列表中,最后利用.extend将序列添加到最终的列表list.append(object) 向列表中添加...原创 2018-04-08 10:00:55 · 304 阅读 · 0 评论 -
我的第一个爬虫
Dang!Dang!Dang!第一只爬虫顺利诞生,看得出有很多不足和繁琐的地方!实现功能:对给定人民网新闻页面进行标题,时间和来源的抓取,并找出该网页的推荐新闻.效果如图:该网址为:http://politics.people.com.cn/n1/2018/0101/c1001-29738654.html代码如下:import requestsfrom bs4 import BeautifulS...原创 2018-04-07 20:51:20 · 210 阅读 · 0 评论