python3+scrapy 趣头条爬虫实例

本文详细介绍了使用Python3和Scrapy框架爬取趣头条网站的步骤,包括项目创建、爬虫类定义、中间件自定义、执行爬虫及数据输出等关键代码说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目简介

爬取趣头条新闻(http://home.qutoutiao.net/pages/home.html),具体内容:
1、列表页(json):标题,简介、封面图、来源、发布时间
2、详情页(html):详细内容和图片

目录结构

生成的数据文件-单条记录


主要代码说明

爬虫:
#爬取趣头条列表和详情页
qutoutiao.spiders.qutoutiaos.QutoutiaosSpider
管道文件:
#封面图片处理类
qutoutiao.imagepipelines.CoverImagePipeline
#内容图片处理类
qutoutiao.imagepipelines.ContentImagePipeline
#数据处理类
qutoutiao.pipelines.QutoutiaoPipeline
中间件:
#请求头设置类-这里只设置了user agent
qutoutiao.middlewares.RandomUserAgent
#代理设置类

qutoutiao.middlewares.RandomProxy

自定义:
#配置文件
qutoutiao.qttconfig.py  
#工具类
qutoutiao.qttutils.QttUtils

创建项目

cd /home/chaoge/mypython/crawler/

scrapy startproject qutoutiao

创建爬虫类即(qutoutiao.spiders.qutoutiaos.QutoutiaosSpider)

cd qutoutiao/ qutoutiao/spiders
scrapy genspider qutoutiaos "api.1sapp.com"

执行

      scrapy crawl qutoutiaos

      #scrapy crawl qutoutiaos --nolog#不显示log

#scrapy crawl qutoutiaos -o qutoutiaos_log.json #将log输出到qutoutiaos_log.json

代码实现

qutoutiao.qttconfig.py  
# 爬取域名(趣头条)
DOMAIN = 'http://home.qutoutiao.net/pages/home.html'

#数据存储路径
DATA_STORE = '/home/chaoge/mypython/crawler/qutoutiao/data'

#列表:http://api.1sapp.com/content/outList?cid=255&tn=1&page=1&limit=10
#列表API
LIST_API = 'http://api.1sapp.com/content/outList?'
#列表记录数
LIST_LIMIT = 10
#分类
CATEGORY_INFO = [
	{"cid":255,"name":"推荐"},
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值