
爬虫scrapy框架
沐雨金鳞
大行不顾细谨
展开
-
Windows10下安装Scrapy(Python3.6)
第一步:下载安装pywin32(图形化界面安装),查看自己的python版本,以便于选择合适的pywin32版本。 这里python3.6版本,32bit。 下载链接:下载地址 第二步:安装lxml pip install lxml 第三步:下载安装twisted(命令行安装) 下载链接:下载地址 进入该文件所在文件夹,执行命令: pip install Twisted-18.9.0-cp36...原创 2018-12-29 16:03:38 · 239 阅读 · 0 评论 -
原 开启Scrapy项目之旅之六:爬取数据进入数据库
1、创建一个爬虫项目 scrapy startproject mysqlpjt 2、修改items.py文件 #建立name存储网页标题 name=scrapy.Field() #建立keywd存储网页标题 keywd=scrapy.Field() 3、修改pipelines.py文件(连接数据库关键) 4、设置settings.py启用pipelines 5、创建爬虫文件(crawl模板...原创 2018-12-30 21:19:50 · 557 阅读 · 0 评论 -
开启Scrapy项目之旅之:编写自动爬取网页的爬虫(当当为例)
1、创建一个爬虫项目 scrapy startproject autopjt 2、编写items.py文件 我们只关注商品名、商品价格、商品链接、评论数 3、编写好items.py文件后,还需要对爬取到的数据经进一步处理,比如存储到json文件中,于是此时编写pipelines.py文件实现。 4、settings的编写 a、打开settings.py文件进行pipelines部分相应设置 ...原创 2018-12-30 17:38:38 · 502 阅读 · 0 评论 -
开启Scrapy项目之旅之五:(爬虫文件)Spider的编写
Spider类是Scrapy中与爬虫相关的一个基类,所有的爬虫文件必须继承该类。 爬虫文件:爬取动作以及数据提取操作 利用gensipider命令创建一个爬虫文件 我们首先创建一个爬虫项目 scrapy startproject myfirstpjt 进入该项目中(因为genspider命令为项目内命令) cd myfirstpjt 创建爬虫文件 scrapy genspider spider...原创 2018-12-30 09:33:48 · 1222 阅读 · 0 评论 -
开启Scrapy项目之旅之四:Items的编写
Scrapy中的Item对象:保存爬取到的提取出的结构化的数据 爬取信息庞大,非结构化 我们要将这样的数据提取出结构化的信息,这样便于处理 1、规划好自己所需的结构化信息 2、在对应爬虫项目的Items文件中进行定义 做法: 1、编辑器打开如myfirstpjt爬虫项目中的items.py文件。 2、对结构化数据定义,直接修改对应的类 定义结构化信息的格式如下: 结构化数据名=scrapy.Fie...原创 2018-12-30 08:59:56 · 662 阅读 · 0 评论 -
开启Scrapy项目之旅之三:常用工具命令
原创 2018-12-30 08:59:40 · 313 阅读 · 0 评论 -
开启Scrapy项目之旅之二:用Scrapy进行项目爬虫管理
1、进入scrapy文件夹下,创建Scrapy项目 scrapy startproject myfirstpjt 2、进入自己创建的scrapy项目中: cd myfirstpjt 进入后,我们可以对该爬虫项目进行管理,可以通过工具命令实现,下节介绍。 3、爬虫项目管理就少不了日志文件。 日志文件;用来记录用户所有操作的信息。 在我们创建爬虫项目的时候就可以加上一些参数进行控制,如: 1、sc...原创 2018-12-29 16:32:14 · 813 阅读 · 0 评论 -
开启Scrapy项目之旅之一:认识Scrapy项目的目录结构
创建一个爬虫项目,框架会自动: 1、生成一个同名项目文件夹 文件夹包括:同名子文件夹+scrapy.cfg文件 2、同名子文件夹:核心代码 scrapy.cfg文件:配置文件 3、同名子文件夹: _init_py文件:项目的初始化文件,项目的初始化信息。 items.py文件:数据容器文件,定义要获取的数据。 pipelines.py文件:项目的管道文件,对items里面定义的数据进行进一步的加工...原创 2018-12-29 16:15:43 · 616 阅读 · 0 评论 -
爬虫-爬取智联招聘
1、直接模拟浏览器爬取时,发现爬取不到相关数据,查看爬取信息,发现需要的信息在js文件中 2、获取js文件的请求URL 3、点击每一页,发现URL的区别仅仅在于start的不同,并且每一页有90条数据 4、爬取到js文件所有数据,发现js文件数据权威json格式 5、下载jsonpath库,pip install jsonpath提取信息 6、将jsonpath表达式提取的信息存进文档里面,下载...原创 2019-01-27 15:19:29 · 3279 阅读 · 8 评论