Scrapy爬取论坛存入elasticsearch

本文介绍了使用Scrapy框架爬取一个小型论坛,并将数据存储到Elasticsearch的过程。首先,文章列出了所使用的环境信息,接着详细说明了如何准备Scrapy项目,包括创建项目结构、安装所需库。然后,作者分享了关键代码文件的内容,如`start.py`、`settings.py`等。最后,文章提及如何在CentOS7服务器上运行该项目,实现数据的爬取与存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬完微博没几天,老板看我在自己看视频学AI,就想可能是再加点任务给我了,昨天让我爬一个小论坛,好在我刚刚自学完scrapy,正愁没时间练习,于是用一个下午的时间写完了。话不多说,开始搞起。

一、环境信息

        Python版本: Python 3.6.5 :: Anaconda

        IDE:Eclipse Oxygen.3 Release (4.7.3)

        开发电脑:MacOS 10.13.2

        部署服务器:CentOS7

        使用到的pypi:scrapyelasticsearch 0.9.1

 

 

二、准备工作

1、安装Python3我就不多说了,Anaconda稳稳地

2、准备scrapy框架,打开终端,cd到你想保存项目的目录下,执行如下指令

MacBookPro:forum songyao$ scrapy startproject [项目名]

MacBookPro:forum songyao$ cd forum/

MacBookPro:forum songyao$ scrapy genspider forum_spider "http://bbs.07430743.com"

MacBookPro:forum songyao$ scrapy crawl forum_spider

这里的最后一行指令是用于执行scrapy的,总是在终端敲比较麻烦,而且window环境还有安装一个win32插件再进入开发环境,很麻烦,所以可以在项目的目录下,新建一个文件,名字就叫start.py。把要在终端执行的指令写入,运行时直接运行start.py文件即可。

#encoding: utf-8

from scrapy import cmdline

cmdline.execute("scrapy crawl forum_spider".split())
# cmdline.execute(["scrapy","crawl","forum_spider"])

创建完成,如下图:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值