今天没事浅谈一下爬虫,有一次项目中用到数据,就开始用python爬虫,爬到的数据直接插到数据库,项目可以直接从数据库查找数据,审核后,可以在前台展示,爬取的速度比较慢,后来又用java写了一个爬虫代码,速度也是很慢,最后决定用scrapy这个爬虫框架爬虫,不错,速度确实比之前速度快了一些。
在用scrapy爬取数据前,需要安装python下redis,mongdb相关的包,安装就绪后,window环境下进入python的安装目录下,开始建立一个爬虫项目,命令直接是
scrapy startproject crawl(爬虫的项目名字,可以随便取),可以进入到当前目录下看,系统会自动生成一些文件,下面就谈一下这些文件的具体作用。其中settings.py这个文件是定义一些和数据库相关的变量,比如爬虫用的redis的IP和端口号,mongdb的IP和端口号等。items.py这个文件是定义一些存放临时的爬取数据的数据域,用起来很方便。pipelines.py这个文件是操作数据用的,比如把爬虫爬取的数据插入到数据库的指定表中等。然后在当前目录下的spiders下新建一个爬取数据的文件,这个文件系统不会自动生成,需要自己新建。提取数据可以用正则表达式,xpath等。完成后可以在当前目录下scrapy crawl 爬虫项目名字,开始爬取。用这个框架爬取数据速度比之前快点,关键是很方便,菜鸟刚开始写博客,有什么建议,欢迎大家指正。最后如果想更快的爬取数据,可以看分布式爬虫的知识。
本文分享了在项目中使用Python爬虫、Java爬虫遇到的问题及解决过程,最终选择Scrapy框架实现数据爬取的优化,并介绍了设置Scrapy项目所需的Python包和配置文件的作用。此外,还提到了Scrapy框架相较于之前使用的爬虫速度提升,以及如何快速开始爬取数据的方法。
1575

被折叠的 条评论
为什么被折叠?



