Scrapy爬取论坛存入elasticsearch

最新推荐文章于 2022-08-03 15:12:00 发布

IncubusSong

最新推荐文章于 2022-08-03 15:12:00 发布

阅读量3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： scrapy python 爬虫 elasticsearch 原创

本文链接：https://blog.youkuaiyun.com/IncubusSong/article/details/82658269

本文介绍了使用Scrapy框架爬取一个小型论坛，并将数据存储到Elasticsearch的过程。首先，文章列出了所使用的环境信息，接着详细说明了如何准备Scrapy项目，包括创建项目结构、安装所需库。然后，作者分享了关键代码文件的内容，如`start.py`、`settings.py`等。最后，文章提及如何在CentOS7服务器上运行该项目，实现数据的爬取与存储。

爬完微博没几天，老板看我在自己看视频学AI，就想可能是再加点任务给我了，昨天让我爬一个小论坛，好在我刚刚自学完scrapy，正愁没时间练习，于是用一个下午的时间写完了。话不多说，开始搞起。

一、环境信息

Python版本： Python 3.6.5 :: Anaconda

IDE：Eclipse Oxygen.3 Release (4.7.3)

开发电脑：MacOS 10.13.2

部署服务器：CentOS7

使用到的pypi：scrapyelasticsearch 0.9.1

二、准备工作

1、安装Python3我就不多说了，Anaconda稳稳地

2、准备scrapy框架，打开终端，cd到你想保存项目的目录下，执行如下指令

MacBookPro:forum songyao$ scrapy startproject [项目名]

MacBookPro:forum songyao$ cd forum/

MacBookPro:forum songyao$ scrapy genspider forum_spider "http://bbs.07430743.com"

MacBookPro:forum songyao$ scrapy crawl forum_spider

这里的最后一行指令是用于执行scrapy的，总是在终端敲比较麻烦，而且window环境还有安装一个win32插件再进入开发环境，很麻烦，所以可以在项目的目录下，新建一个文件，名字就叫start.py。把要在终端执行的指令写入，运行时直接运行start.py文件即可。