python scrapy 爬虫

最新推荐文章于 2025-10-09 10:48:35 发布

原创最新推荐文章于 2025-10-09 10:48:35 发布 · 831 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python scrapy 爬虫

爬虫专栏收录该内容

1 篇文章

订阅专栏

本文分享了在项目中使用Python爬虫、Java爬虫遇到的问题及解决过程，最终选择Scrapy框架实现数据爬取的优化，并介绍了设置Scrapy项目所需的Python包和配置文件的作用。此外，还提到了Scrapy框架相较于之前使用的爬虫速度提升，以及如何快速开始爬取数据的方法。

今天没事浅谈一下爬虫，有一次项目中用到数据，就开始用python爬虫，爬到的数据直接插到数据库，项目可以直接从数据库查找数据，审核后，可以在前台展示，爬取的速度比较慢，后来又用java写了一个爬虫代码，速度也是很慢，最后决定用scrapy这个爬虫框架爬虫，不错，速度确实比之前速度快了一些。

在用scrapy爬取数据前，需要安装python下redis，mongdb相关的包，安装就绪后，window环境下进入python的安装目录下，开始建立一个爬虫项目，命令直接是

scrapy startproject crawl(爬虫的项目名字，可以随便取)，可以进入到当前目录下看，系统会自动生成一些文件，下面就谈一下这些文件的具体作用。其中settings.py这个文件是定义一些和数据库相关的变量，比如爬虫用的redis的IP和端口号，mongdb的IP和端口号等。items.py这个文件是定义一些存放临时的爬取数据的数据域，用起来很方便。pipelines.py这个文件是操作数据用的，比如把爬虫爬取的数据插入到数据库的指定表中等。然后在当前目录下的spiders下新建一个爬取数据的文件，这个文件系统不会自动生成，需要自己新建。提取数据可以用正则表达式，xpath等。完成后可以在当前目录下scrapy crawl 爬虫项目名字，开始爬取。用这个框架爬取数据速度比之前快点，关键是很方便，菜鸟刚开始写博客，有什么建议，欢迎大家指正。最后如果想更快的爬取数据，可以看分布式爬虫的知识。