python3+scrapy 趣头条爬虫实例

Python3使用Scrapy爬取趣头条实战教程

最新推荐文章于 2025-10-04 20:38:43 发布

原创

最新推荐文章于 2025-10-04 20:38:43 发布 · 1.3w 阅读

39 ·

CC 4.0 BY-SA版权

本文详细介绍了使用Python3和Scrapy框架爬取趣头条网站的步骤，包括项目创建、爬虫类定义、中间件自定义、执行爬虫及数据输出等关键代码说明。

项目简介

爬取趣头条新闻（http://home.qutoutiao.net/pages/home.html），具体内容：
1、列表页（json）：标题，简介、封面图、来源、发布时间
2、详情页（html）：详细内容和图片

目录结构

生成的数据文件-单条记录

主要代码说明

爬虫：
#爬取趣头条列表和详情页
qutoutiao.spiders.qutoutiaos.QutoutiaosSpider
管道文件：
#封面图片处理类
qutoutiao.imagepipelines.CoverImagePipeline
#内容图片处理类
qutoutiao.imagepipelines.ContentImagePipeline
#数据处理类
qutoutiao.pipelines.QutoutiaoPipeline
中间件：
#请求头设置类-这里只设置了user agent
qutoutiao.middlewares.RandomUserAgent
#代理设置类

qutoutiao.middlewares.RandomProxy

自定义：
#配置文件
qutoutiao.qttconfig.py
#工具类
qutoutiao.qttutils.QttUtils

创建项目

cd /home/chaoge/mypython/crawler/

scrapy startproject qutoutiao

创建爬虫类即(qutoutiao.spiders.qutoutiaos.QutoutiaosSpider)

cd qutoutiao/ qutoutiao/spiders
scrapy genspider qutoutiaos "api.1sapp.com"

执行

scrapy crawl qutoutiaos

#scrapy crawl qutoutiaos --nolog#不显示log

#scrapy crawl qutoutiaos -o qutoutiaos_log.json #将log输出到qutoutiaos_log.json

代码实现

qutoutiao.qttconfig.py

# 爬取域名（趣头条）
DOMAIN = 'http://home.qutoutiao.net/pages/home.html'

#数据存储路径
DATA_STORE = '/home/chaoge/mypython/crawler/qutoutiao/data'

#列表：http://api.1sapp.com/content/outList?cid=2

最低0.47元/天解锁文章

3 条评论

full-stack-coder 2018.10.30
你好，请问有源码吗？谢谢
- yscoder回复full-stack-coder 2019.06.20
  [reply]zhanweichun[/reply] 可以参考: https://github.com/yscoder-github/news-spider

ikfans 2018.09.04
你好，作者，能问下源码吗？
- ikfans回复yscoder 2020.06.09
  [reply]yscoder[/reply]谢谢
- yscoder回复ikfans 2019.06.20
  [reply]zhangxiaoguang123[/reply] https://github.com/yscoder-github/news-spider