使用scrapy爬取新浪新闻

最新推荐文章于 2022-02-23 12:11:30 发布

原创

最新推荐文章于 2022-02-23 12:11:30 发布 · 4.7k 阅读

29 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Scrapy框架爬取新浪新闻。关键步骤包括观察网页结构，定义item和meta参数，创建爬虫项目，设置items.py，编写newsina.py爬虫文件，实现数据管道pipelines.py，调整settings.py配置，并进行测试。过程中强调了item位置的重要性以及如何过滤无效数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用scrapy爬取新浪新闻
思路：通过观察，获取某节点作为当前节点，然后依次遍历大类链接小类链接子链接
要点：注意item和meta参数的使用。详情见代码newsina.py里面相关的注释
总结：个人因为item的位置，导致浪费了好多时间。
流程如下：

创建爬虫项目sina2
```
scrapy startproject sina2
```

设置items.py文件，存储要爬取的数据类型及字段名字


# -*- coding: utf-8 -*-

import scrapy


class Sina2Item(scrapy.Item):
    # 大类链接和url,如新闻　体育等
    parentUrl = scrapy.Field()
    parentTitle = scrapy.Field()

    # 小类链接和url，如新闻下面的国内　社会等
    subUrl = scrapy.Field()
    subTitle = scrapy.Field()
    # 小类存储路径
    subpath = scrapy.Field()

    # 子链接
    sonUrl = scrapy.Field()
    # 子链接里面的标题和内容
    head = scrapy.Field()
    content = scrapy.Field()

创建爬虫文件newsina.py


# -*- coding: utf-8 -*-

import os
import scrapy
from sina2.items import Sina2Item


class NewsinaSpider(scrapy.Spider):
    name = 'newsina'
    allowed_domains = ['sina.com.cn']
    start_urls = ['http://news.sina.com.cn/guide/']

    def